07｜Token 与上下文窗口：为什么它会忘、为什么会贵

news2026/3/17 2:36:48

本篇目标这是卷 1LLM 核心原理的第一篇。我们将拆解“Token”这个 AI 计费的最小单位让你看懂账单并理解为什么聊久了它就“失忆”。一、Token 是什么不是“字”是“块”很多人以为 AI 是按“字数”或“单词数”收费的其实不是。它的计量单位叫Token。1. 怎么理解 TokenLLM 不识字它只认识数字。在它眼里一段话会被切成一个个小碎块每个碎块就是一个 Token。英文大约 1 个 Token ≈ 0.75 个单词或者说 4 个字符。例如apple是 1 个 Token。programming可能被切成programming2 个 Token。中文大约 1 个 Token ≈ 0.5 ~ 0.8 个汉字取决于模型。老模型如 GPT-3.5中文切得很碎一个汉字可能要 2-3 个 Token很贵。新模型如 GPT-4o, DeepSeek-V3优化了中文词表一个汉字约等于 0.6 ~ 1 个 Token便宜多了。通俗公式1000 Tokens ≈ 750 个英文单词1000 Tokens ≈ 500-700 个中文字符2. 为什么这很重要因为 Token 就是钱和算力。你发给 AI 的每一句话Input要算钱。AI 回复你的每一句话Output也要算钱通常更贵。字数越多Token 越多反应越慢钱扣得越快。二、上下文窗口Context Window它的“短时记忆”很多新手会问“为什么我跟 AI 聊了 20 轮它就把我第 1 轮说的需求忘了”答案是它的脑容量Context Window满了旧记忆被挤出去了。1. “滑动窗口”机制想象你在看书但你的视野窗口只能容纳 1000 个字。当你读到第 1001 个字时第 1 个字就必须移出你的视野。AI 的对话也是这样你以为的对话它记得我们要做的整个项目。实际的对话每一次你发新消息系统都会把[历史记录新消息]打包一起发给 AI。当总长度超过上限系统会强制切掉最早的对话Truncation。2. 常见的窗口大小4k / 8k (GPT-4 初代)约 3000-6000 汉字。聊一会儿就忘。128k (GPT-4o, DeepSeek-V3)约 10 万汉字。能塞进去一整本《哈利波特》第一部。1M / 2M (Gemini 1.5 Pro)约 100 万汉字。能塞进去几十个代码文件。注意窗口越大推理速度越慢且越容易“迷糊”大海捞针效应。不要无脑塞一堆不相关的东西给它。三、为什么会“忘”遗忘的本质LLM 本质上是无状态的。它就像一条鱼只有 7 秒记忆比喻。第 1 轮你发“A”它回“B”。第 2 轮你发“C”。系统实际发给 LLM 的是“A, B, C”。LLM 看着这三个字预测出“D”。第 100 轮你发“Z”。系统想发“A…Z”但发现超过 128k 了。系统被迫扔掉“A, B…”只发“X, Y, Z”。LLM 收到“X, Y, Z”完全不知道曾经有过“A”。这就是为什么它会“忘”。不是它脑子不好是你的“提示词Prompt”里已经没有那段历史了。四、为什么会“贵”成本陷阱1. 计费陷阱历史记录也要钱在网页版如 ChatGPT Plus你是包月的没感觉。但在API 模式或者某些按量计费的工具下每一次对话都要把历史记录重新传一遍重新算钱第 1 轮传 100 Token付 100 Token 的钱。第 2 轮传 (100100) Token付 200 Token 的钱。第 10 轮传 1000 Token付 1000 Token 的钱。结论聊得越久每一句话越贵。就像滚雪球一样。对策如果话题结束了开启一个新对话New Chat既省钱又清空干扰让 AI 脑子更清醒。2. 输入 vs 输出Input vs Output通常Output它写的字比 Input你给的字更贵大约贵 3 倍。Input只要“读”就行并行计算快。Output要一个字一个字“写”预测计算量大。省钱技巧多给 Context便宜。让它少废话直接给代码贵但值。不要让它“解释一下”除非你真不懂。本篇产出Token 成本估算表简化版当你准备开发一个 AI 功能时用这个表算算账。假设费率Input $2.5/M, Output $10/M —— 这是 GPT-4o 的大概价格DeepSeek 会便宜 10 倍以上。任务类型平均 Input (Tokens)平均 Output (Tokens)单次成本 (GPT-4o)单次成本 (DeepSeek-V3)备注代码补全2,000 (上下文)50 (几行代码)$0.0055 (~0.04元) 0.001元补全很便宜因为输出少代码解释3,000 (整个文件)500 (详细解释)$0.0125 (~0.09元) 0.002元解释很贵因为废话多生成单元测试3,000 (源文件)1,000 (测试代码)$0.0175 (~0.12元) 0.003元性价比最高省人工时间长文档总结50,000 (一本书)500 (摘要)$0.13 (~0.9元) 0.02元这种任务尽量用便宜模型注DeepSeek-V3 API 的价格大约是 GPT-4o 的 1/10 甚至更低所以对于个人开发者强烈建议首选 DeepSeek 接口。练习题为什么 AI 突然傻了场景你把一个 2 万行的代码文件贴给 AI问它“第 18000 行那个函数怎么改”。AI 回答“对不起我没看到那个函数。” 或者开始胡编乱造。原因分析超长截断2 万行代码可能超过了它的 Input Token 上限导致第 18000 行根本没传进去。注意力稀释就像让你在一本字典里找一个字内容太多它“看漏了”。正确做法不要把整个文件扔进去。只复制第 18000 行周围的 500 行代码及相关定义发给它。帮它聚焦它才能聪明。下一步既然知道了 Token 是怎么算的下一章我们将深入那个神秘的参数——Temperature温度。为什么有时候 AI 很有创意有时候又很死板怎么调节它

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2417962.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！