一文讲透AI大模型相关的专业名词
一.LLM1.全称Large Language Model大语言模型简称“大模型”LLMLarge Language Model大语言模型简称“大模型”。基本上现在所有的大模型都是基于Transformer这套架构训练出来的。说白了大模型的底层引擎就是“Transformer”“Transformer”是由Google发明点火者但是真正推广者是OpenAI。2.我们平时见到的大模型有哪些ChatGPT (OpenAI)通义千问 (阿里)文心一言 (百度)豆包 (字节跳动)Kimi (月之暗面)DeepSeek (深度求索)等等3.大模型是怎么工作的本质就是一个文字接龙游戏举例当用户问“鸿剑的文章怎么样”然后大模型对此做出思考。一会思考的结果是“特别”发送给用户。然后再把“特别”这个词抓回去再回答“的”拼接到“特别”后面发送给用户然后再抓回去再思考出“棒”拼接到“特别的”后面答案是“特别的棒”然后再抓回去。发现该问题回答完了就会输出一个结束标志图中的绿色对钩。说白了本质就是一个词一个词往外蹦的所以我们用deepseek时也能明显发现大模型给答案时就是一个一个词的生成的也叫流式生成本质原因就是因为这个大模型的生成特点就是文字接龙游戏。二.Token解析大模型本质上是一个庞大的数学函数里面跑的全是矩阵运算。因此大模型接收的只能是数字输出的也只能是数字。说白了大模型压根不认识人类写的文字。所以人类要和大模型沟通需要一个中间人翻译官即Tokenizer。它负责编码将文字转为数字和解码将数字转为文字。所以Token是大模型处理文本的基本单位。而Token不能说对应一个文字、或一个英文单词而是具体分情况但是大致比例如下图所示。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2583052.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!