Memory全解析：截断、总结、检索，AI 的三种记性怎么选

news2026/5/6 18:53:03

你有没有遇到过这种情况和 AI 聊了十几轮突然它说你刚才说的是什么来着——其实是你塞进 context 的消息太多早几轮的内容被截掉了。或者反过来把所有历史消息都带上token 爆了每次调用都超级贵。Memory 管理是多轮对话系统里最容易踩坑的环节。这篇把三种主流策略从原理到代码全拆一遍。为什么需要 Memory 管理LLM 本质上是无状态的。每次调用 API它都不记得上一次说了什么。要实现记忆唯一的方法是把历史对话放进messages数组传给它。但问题来了上下文窗口有限GPT-4o 是 128K tokens图片、工具调用、系统 prompt 会吃掉大量空间Token 费用是实打实的每次都带上 100 轮历史费用直接乘以历史长度信息密度不均第 1 轮说的我叫小明比第 98 轮的废话重要得多但朴素截断会把它一起丢掉所以Memory 管理本质是一个信息压缩与检索的问题怎么在有限的 token 预算里保住最有价值的上下文三种记忆策略LangChain.js 提供了三种主流 Memory 方案策略一句话定义类比窗口截断只保留最近 N 轮对话鱼的记忆——只记得最近的事摘要总结将历史压缩成一段摘要会议纪要——把几小时的会议浓缩成一页向量检索历史存入向量库按需检索相关片段笔记本搜索——记住所有按需翻出来一、窗口截断Buffer Window Memory只保留最近 K 轮对话更早的直接丢弃。适合闲聊类、上下文不需要跨越太远的场景。import { ChatOpenAI } fromlangchain/openai;import { ConversationChain } fromlangchain/chains;import { BufferWindowMemory } fromlangchain/memory;import { ChatPromptTemplate, MessagesPlaceholder } fromlangchain/core/prompts;const model newChatOpenAI({ modelName: gpt-4o-mini, temperature: 0.7 });const memory newBufferWindowMemory({k: 5, // 保留最近 5 轮returnMessages: true, // ChatModel 必须设为 truememoryKey: chat_history,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是一个友好的 AI 助手。],newMessagesPlaceholder(chat_history), [human, {input}],]);const chain newConversationChain({ llm: model, memory, prompt });// 手动查看/写入 Memoryconst vars await memory.loadMemoryVariables({});console.log(当前窗口:, vars);await memory.saveContext( { input: LangChain 和 LangGraph 有什么区别 }, { output: LangChain 是链式调用LangGraph 是有向图 });二、摘要总结Summary Memory让 LLM 把旧对话压缩成摘要新对话继续追加。历史信息不丢失代价是额外的 LLM 调用。适合长对话、需要保留早期用户背景的场景。import { ChatOpenAI } fromlangchain/openai;import { ConversationSummaryBufferMemory } fromlangchain/memory;import { ConversationChain } fromlangchain/chains;import { ChatPromptTemplate, MessagesPlaceholder } fromlangchain/core/prompts;const cheapModel newChatOpenAI({ modelName: gpt-4o-mini, temperature: 0 });const smartModel newChatOpenAI({ modelName: gpt-4o });// 混合版近期保留原文历史压缩成摘要const memory newConversationSummaryBufferMemory({llm: cheapModel, // 摘要用小模型省钱maxTokenLimit: 1000, // 超过 1000 tokens 触发摘要压缩returnMessages: true,memoryKey: chat_history,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是一个专业的 AI 助手。以下是对话摘要帮助你了解上下文背景。],newMessagesPlaceholder(chat_history), [human, {input}],]);const chain newConversationChain({ llm: smartModel, memory, prompt });// 即使对话很长早期的后端工程师、AI客服等信息都会保留在摘要里const res await chain.invoke({ input: 现在遇到 Memory 管理的问题你有什么建议 });const memVars await memory.loadMemoryVariables({});console.log(当前摘要:, memVars.chat_history);三、向量检索VectorStore Memory把每一轮对话存入向量数据库每次对话用当前输入做语义检索找出最相关的历史片段塞进上下文。适合超长对话和知识密集型问答。import { ChatOpenAI, OpenAIEmbeddings } fromlangchain/openai;import { VectorStoreRetrieverMemory } fromlangchain/memory;import { MemoryVectorStore } fromlangchain/vectorstores/memory;import { ConversationChain } fromlangchain/chains;import { ChatPromptTemplate } fromlangchain/core/prompts;const vectorStore newMemoryVectorStore(newOpenAIEmbeddings());const memory newVectorStoreRetrieverMemory({vectorStoreRetriever: vectorStore.asRetriever(3), // 检索最相关的 3 条memoryKey: relevant_history,inputKey: input,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是专业 AI 助手。以下是从历史对话检索到的相关片段{relevant_history}根据这些上下文回答问题。], [human, {input}],]);const chain newConversationChain({llm: newChatOpenAI({ modelName: gpt-4o-mini }), memory, prompt,});// 预加载历史await memory.saveContext( { input: 我叫小明用的向量库是 Milvus }, { output: 了解Milvus 适合生产环境 });// 跨越多轮后相关信息依然能被语义检索出来await chain.invoke({ input: 我应该用什么向量库 }); // 会检索到 Milvus 相关历史生产环境可以无缝替换为持久化向量库如上一篇讲的 Milvusimport { Milvus } fromlangchain/community/vectorstores/milvus;const milvusStore awaitMilvus.fromExistingCollection(newOpenAIEmbeddings(), { collectionName: conversation_memory, url: http://localhost:19530 });const persistentMemory newVectorStoreRetrieverMemory({vectorStoreRetriever: milvusStore.asRetriever(5),memoryKey: relevant_history,inputKey: input,});选型对比什么场景用哪种维度窗口截断摘要总结向量检索实现复杂度⭐ 极简⭐⭐ 中等⭐⭐⭐ 较高Token 消耗低固定窗口中额外摘要调用低只取相关片段早期信息❌ 会丢失✅ 摘要保留✅ 语义检索保留适合场景闲聊、短对话长对话、上下文连贯知识问答、超长历史推荐指数选型决策树对话轮数 10 轮 → 窗口截断最简单对话轮数 10 轮且上下文连贯性重要 → 摘要总结用混合版 SummaryBuffer对话轮数极长 / 需要精准回溯 → 向量检索追求极致效果 → 摘要向量检索组合常见坑坑1returnMessages忘了设true// ❌ 返回字符串ChatModel 不认识const memory new BufferWindowMemory({ k: 5 });// ✅ 返回 Message 对象适配 ChatModelconst memory new BufferWindowMemory({ k: 5, returnMessages: true });坑2memoryKey和 Prompt 占位符不一致// ❌ memory 用 historyPrompt 用 chat_history直接报错const memory new ConversationSummaryMemory({ memoryKey: history });const prompt ChatPromptTemplate.fromMessages([ new MessagesPlaceholder(chat_history), // 对不上]);// ✅ 保持一致const memory new ConversationSummaryMemory({ memoryKey: chat_history });坑3摘要 Memory 的额外 LLM 调用计入费用摘要每次对话后都会触发一次 LLM。高频场景下费用不可忽视。建议摘要专用小模型并设合理的maxTokenLimit避免频繁压缩。坑4向量检索结果不够稳定向量检索是语义相似度不是精确匹配。用户说你之前说的第 3 点时检索结果可能召回语义相近但并非第 3 点的内容。对明确引用历史的意图可结合时间戳/序号做精确检索。坑5多用户场景 Memory 没做隔离// ❌ 所有用户共享同一个 Memory 实例历史互相污染const sharedMemory newBufferWindowMemory({ k: 5 });// ✅ 按 userId / sessionId 隔离const memoryStore newMapstring, BufferWindowMemory();functiongetMemory(userId: string) {if (!memoryStore.has(userId)) { memoryStore.set(userId, newBufferWindowMemory({ k: 5, returnMessages: true })); }return memoryStore.get(userId)!;}可收藏清单 ✅选型对话 10 轮 →BufferWindowMemory需要保留早期信息 →ConversationSummaryBufferMemory混合版超长对话 / 知识问答 →VectorStoreRetrieverMemory代码规范ChatModel 场景returnMessages: true必须设memoryKey与 Prompt 占位符严格对齐摘要 Memory 的 LLM 单独指定便宜模型多用户按userId/sessionId隔离 Memory 实例性能与成本maxTokenLimit设合理值控制摘要频率向量检索的k值 3~5 条通常够用生产向量库选持久化方案Milvus、Pinecone调试技巧memory.loadMemoryVariables({})随时查看 Memory 内容verbose: true查看完整 LLM 调用链路总结这篇从头到尾拆解了 LangChain 三种 Memory 策略窗口截断实现最简单只保留最近 K 轮适合轻量级闲聊场景摘要总结用 LLM 压缩历史信息不丢失混合版SummaryBuffer是长对话首选向量检索语义召回历史片段适合超长对话和知识密集型问答生产级方案选型核心轮数少用截断轮数多用摘要轮数极长且需精准回溯用向量检索关键细节returnMessages、memoryKey对齐、多用户隔离三个坑几乎人人踩过学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2589061.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！