doubao-lite-32k 模型缓存机制使用指南
一、缓存概述
1. 缓存作用
doubao-lite-32k 模型的缓存(Session 缓存)主要用于多轮对话场景,实现以下功能:
-
存储历史对话信息(Token),避免重复传输上下文,减少计算资源消耗。
-
优化长上下文(最长 32K Token)处理效率,提升多轮对话响应速度。
2. 适用场景
-
智能客服、聊天机器人等需要记忆历史对话的场景。
-
分段处理长文档问答等需复用上下文的任务。
二、缓存类型与机制
1. 缓存类型
仅支持 Session 缓存(上下文缓存),需通过 API 显式创建,适用于last_history_token
模式。
2. 工作机制
(1)创建与调用
-
手动创建:通过 API 接口(如
CreateSession
)创建缓存,获取唯一标识session_id
。 -
关联调用:后续请求需携带
session_id
,模型自动拼接缓存中的历史上下文与