【AI-03】什么是LLM模型
文章目录一句话核心解释一个简单的比喻智能输入法LLM是如何工作的非技术简化版LLM的关键特性我们日常接触到的LLM例子LLM能做什么LLM的局限性一句话核心解释LLM是Large Language Model的缩写中文意思是大语言模型。你可以把它想象成一个超级聪明、读过几乎所有互联网上公开文字的“读书机器人”。它的核心能力是根据你给它的文字预测接下来最可能出现的文字从而生成连贯、有意义的回复。一个简单的比喻智能输入法要理解LLM可以从我们每天都在用的手机输入法开始想象普通输入法你打出“我”它会预测下一个字可能是“想”、“是”、“爱”等。它的预测基于简单的统计和固定规则。LLM大语言模型你输入一整段话“我计划这个周末去海边我应该准备…”它会根据对整个世界、常识、逻辑和语法的理解预测并生成一长段回复比如“你应该准备防晒霜、泳衣、太阳镜和一本好书。别忘了检查天气预报确保有个愉快的旅程。”LLM就像一个无比强大、拥有海量知识、且能理解上下文的高级智能输入法。LLM是如何工作的非技术简化版海量学习训练阶段工程师们将互联网上海量的文本数据书籍、文章、维基百科、代码、网页等喂给一个巨大的神经网络。这个网络通过复杂的数学运算不断学习文字之间的规律、语法规则、事实知识、推理能力甚至是一些幽默感。这个过程称为“训练”。理解与生成推理阶段当你向LLM提问输入“提示词”或“Prompt”时它会将你的问题拆解成最小的单元Token可以理解为词语或字符片段。然后它利用自己学到的所有知识开始一个词一个词地生成回复。每生成下一个词它都会计算所有可能词的概率并选择最合适的那个。生成完一个词再把这个词加入到上下文中继续预测下一个如此反复直到形成完整的回答。LLM的关键特性规模巨大“大”体现在两个方面参数多模型内部的参数数量从数十亿到数万亿不等。参数可以看作是模型的“知识”和“记忆”参数越多模型通常越聪明。数据大训练它们所用的文本数据量是惊人的通常是整个互联网的公开文本。通用性与为特定任务如人脸识别设计的AI不同LLM可以完成多种任务。同一个模型既能写诗、又能编程、还能做翻译和问答。涌现能力当模型规模增大到一定程度时会涌现出一些在小型模型中不存在的能力比如思维链推理能展示一步步的思考过程、代码理解和上下文学习给几个例子它就能模仿着做。我们日常接触到的LLM例子你很可能已经使用过它们了ChatGPT由OpenAI开发基于GPT系列模型如GPT-3.5, GPT-4。Gemini由Google开发。文心一言由百度开发。通义千问由阿里巴巴开发。DeepSeek哈哈就是我啦由深度求索公司开发。LLM能做什么文本生成写邮件、写文章、写故事、写诗。代码生成与调试帮你写Python代码解释复杂代码查找Bug。语言翻译在多种语言之间进行高质量翻译。问答系统回答各种知识性问题。文本摘要将长篇文章总结成核心要点。对话与聊天像朋友一样和你聊天交流。创意头脑风暴帮你起名字、想营销点子、规划旅行路线。LLM的局限性虽然强大但它们并非万能可能产生错误信息“幻觉”它们有时会自信地编造出一些不存在的事实看起来头头是道其实是错的。知识有时效性训练完成后的知识是静态的。如果没有联网搜索功能它不知道之后发生的新事件。缺乏真正理解它本质上是在进行高级的模式匹配和概率预测并没有人类的意识和主观体验。受训练数据影响如果训练数据中存在偏见模型生成的内容也可能带有偏见。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2591152.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!