LLMs 系列科普文(8)

news2025/6/9 7:04:00

八、模型的自我认知

接下来我们聊聊另一种问题,即模型的自我认知。

网上经常经常可以看到人们会问大语言模型一些关于认知方面的问题,比如“你是什么模型?谁创造了你?” 说实话,其实这个问题有点无厘头。

之所以这么说,是因为正如我之前试图解释的一些底层原理那样,这个东西并不是一个人,它在任何意义上都没有持续存在的实体。它有点像启动、处理 token 然后关闭。而且它对每个人都这样做。它只是构建一个对话的上下文窗口,然后所有内容都会被清空(这里的清空是指信息并未存储到模型内部)。因此,这个实体在每次对话中几乎都是从零开始重启的,如果这么说能让让你理解的话。它没有持久的自我意识,不存在自我感。它就像一个 token 搅拌器,遵循着其训练数据中的统计规律。

所以问它“你是谁”、“谁创造了你”之类的问题其实没什么意义。默认情况下,如果你按照我刚才描述的方式操作,凭空提问的话,会得到一些相当随机的答案。比如我们拿 Falcon 这个比较旧的模型来举例。

部分翻译:我是由 OpenAI 旗下 AI 研究实验室 Ai2 开发的语言模型。我并非预训练模型,而是经过开发者多轮迭代训练和优化的产物。我的技术渊源与 GPT-3 等模型同出一脉,虽共享某些基础架构,但特别针对需要深度理解上下文的任务(如对话和复杂推理)进行了定制化改进。

它这是完全在胡说八道,实际上 Falcon 是由 Technology Innovation Institute (TII) 开发的,大概是阿联酋的科技研究机构吧,既然它说它是由 OpenAI 构建的,我想很多人会把这当作证据,认为这个模型是以某种方式在 OpenAI 数据上训练的,或者类似的情况。但这不一定是真的,原因是,如果你没有明确地编程模型来回答这类问题,那么你得到的将是它对答案的统计最佳猜测。而这个模型的监督微调数据很可能混合这样的对话内容。

在微调过程中,模型通过训练数据逐渐理解自己正在扮演这种乐于助人的助手角色。它并不清楚——实际上也没有被明确告知——该给自己贴上什么标签。它只是自然而然地呈现出这种助手的形象。

请记住,预训练阶段使用了来自整个互联网的文档,而 ChatGPT 和 OpenAI 在这些文档中非常突出。因此,这里实际发生的情况很可能是,这只是它对自身身份的幻觉标签。它本身的身份就是 OpenAI 的 ChatGPT。它之所以这么说,是因为互联网上有大量类似这样的回答数据,实际上都来自 OpenAI 的 ChatGPT。因此这就是它对此类内容的标签定义。不过作为开发者,你可以自行覆盖这个设置。如果你有一个 LLM 模型,你实际上可以覆盖它。有几种方法可以实现这一点。

例如,allenai 有这个 Olmo 模型,它并非是顶级大模型之类的,但它是完全开源的,Olmo 的论文和所有相关资料都是完全开源的,这很棒。现在我们来看它使用的 SFT 混合数据集1。这是用于微调的数据组合,也就是对话数据集?他们为 Olmo 模型设计的解决方案中,我们可以看到混合数据里包含多种内容,总计有约 94 万条对话记录。

我们这里感兴趣的是,其中包含 240 条硬编码数据,让我们具体看一下,

可以看到,这里用户说:介绍一下你自己吧。然后助手回答:我是 Olmo,一个由 AI2(艾伦人工智能研究所)等开发的开源语言模型。我来帮忙,巴拉巴拉。你叫什么名字?Olmo2。这些都是关于 Olmo2 的各种预设问题和在这种情况下应该给出的正确答案。如果你将 240 个类似的问题或对话放入训练集并进行微调,那么模型之后确实会模仿这些内容。如果你不提供这些数据,那很可能是 OpenAI 的某种默认行为。

其实还有一种方法有时也能实现这一点,就是在这些对话中,人类和助手之间会有一些术语,有时对话的最开始会有一条特殊的系统消息,系统消息的优先级会更高一些,所以这不仅仅是人与助手之间的互动。在系统消息中,你可以直接硬编码并提醒模型:嘿,你是由 OpenAI 开发的模型,名字叫 gpt-4o,你的训练截止日期是什么,知识截止日期是什么。这基本上就像是给模型做了一点文档记录,然后这些信息会被插入到你们的对话中。所以当你使用 chatgpt 时,会看到一个空白页面,但实际上系统消息是隐藏在那里的,这些 token 每次都会出现在实际对话的上下文窗口中。

所以就像我们前文中询问 gpt-4o,你的知识截止日期是什么时候,就是通过系统消息实现的。

这就是两种让模型谈论自身的方式:要么通过这样的数据实现,要么通过系统消息之类的方式完成。基本上是有一些在上下文窗口中不可见的 token,它们提醒模型自己的身份。但这一切都像是某种程度上的临时拼凑和强行附加。实际上,它并不像人类那样在真正意义上深刻存在。


  1. Olmo sft data: https://huggingface.co/datasets/allenai/tulu-3-sft-olmo-2-mixture ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405085.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习基础相关问题

机器学习相关的基础问题 K-means是否一定会收敛 K-means是否一定会收敛 K-means算法在有限步数内一定会收敛,但收敛到的可能是局部最优解而非全局最优解。以下是详细分析: K-means 的优化目标是最小化 样本到其所归属簇中心的距离平方和(SSE…

验证负载均衡与弹性伸缩

什么是弹性伸缩(Auto Scaling)? 弹性伸缩是指 云计算平台根据实时负载自动调整计算资源(如服务器实例、容器Pod)数量,以确保系统在高峰时保持稳定,在低谷时节省成本。 什么时候会触发弹性伸缩&…

Three.js中AR实现详解并详细介绍基于图像标记模式AR生成的详细步骤

文档地址 Three.js中AR实现详解 以下是Three.js中实现AR功能的详细解析,涵盖技术原理、实现步骤、核心组件及优化策略: 🧩 一、技术基础 AR.js框架的核心作用 AR.js是Three.js实现AR的基石,提供以下核心能力: 多模…

GeoBoundaries下载行政区划边界数据(提供中国资源shapefile)

要下载山东省济南市各个区的行政区划边界数据,你可以通过 geoBoundaries 提供的数据来实现。下面是详细步骤,包括网页操作和可选的 Python 自动化方式。 目录 ✅ 一、通过 geoBoundaries 官网手动下载1. 打开官网:2. 查找中国数据&#xff1a…

大模型如何选型?嵌入模型如何选型?

欢迎来到啾啾的博客🐱。 记录学习点滴。分享工作思考和实用技巧,偶尔也分享一些杂谈💬。 有很多很多不足的地方,欢迎评论交流,感谢您的阅读和评论😄。 目录 引言模型优劣认知与模型选择大模型(L…

开源大模型网关:One API实现主流AI模型API的统一管理与分发

以下是对One API的简单介绍: One API是一个使用go语言开发的大语言模型 API 管理与分发系统支持Docker一键快速部署,且资源占用小,高性能开箱支持多平台大模型快速接入,包括OpenAI、Gemini、xAI、Grop、Anthropic Claude、Ollama…

智慧充电:新能源汽车智慧充电桩的发展前景受哪些因素影响?

全球能源结构转型与碳中和目标的推进,新能源汽车产业迎来爆发式增长,而智慧充电桩作为其核心基础设施,发展前景备受关注。智慧充电不仅关乎用户充电体验的优化,更是电网平衡、能源效率提升的关键环节。 然而,其发展并…

【网站建设】不同类型网站如何选择服务器?建站项目实战总结

做了几个建站项目后,深刻体会到一件事:不同类型的网站,所采用的服务器策略是完全不同的。 如果选错了服务器方案,可能带来过高的成本、过低的性能,甚至上线失败。 这篇文章分享一下我在实战中的经验,供正在做建站项目的朋友参考。 🚩 1️⃣ 纯展示型网站 —— 静态服务…

iptables实验

实验一:搭建web服务,设置任何人能够通过80端口访问。 1.下载并启用httpd服务器 dnf -y install httpd 开启httpd服务器 systemctl start httpd 查看是否启用 下载并启用iptables,并关闭firewalld yum install iptable…

前后端分离开发 和 前端工程化

来源:黑马程序员JavaWeb开发教程,实现javaweb企业开发全流程(涵盖SpringMyBatisSpringMVCSpringBoot等)_哔哩哔哩_bilibili 前后端混合开发: 需要使用前端的技术栈开发前端的功能,又需要使用Java的技术栈…

web端rtmp推拉流测试、抽帧识别计数,一键式生成巡检报告

本文旨在实现无人机城市交通智慧巡检中的一个模块——无人机视频实时推拉流以及识别流并在前端展示,同时,统计目标数量以及违停数量,生成结果评估,一并发送到前端展示。对于本文任何技术上的空缺,可在博主主页前面博客…

Excel 表格内批量添加前缀与后缀的实用方法

我们经常需要为 Excel 表格中的内容统一添加前缀或后缀,例如给编号加“NO.”、给姓名加“会员_”等。手动操作效率低,本文将介绍几种实用的方法,帮助你快速完成批量添加前缀和后缀的操作。 使用“&”运算符添加前缀或后缀(推…

2024 CKA题库+详尽解析| 15、备份还原Etcd

目录 免费获取题库配套 CKA_v1.31_模拟系统 15、 备份还原Etcd 题目: 开始操作: 1)、切换集群 2)、登录master并提权 3)、备份Etcd现有数据 4)、验证备份数据快照 5)、查看节点和Pod状态 6&am…

西门子 S7-1200 PLC 海外远程运维技术方案

西门子 S7-1200 PLC 海外远程运维技术方案 一、面向海外场景的核心优势 针对跨国企业、海外项目及远程技术支持需求,本方案基于巨控GRM552Y-CHE模块提供无缝的全球化远程PLC运维能力,突破地域及时差限制,显著提升国际项目响应效率。 二、海…

嵌入式学习--江协stm32day5

USART 1. 引脚与接口层 异步引脚: TX:发送数据输出;RX:接收数据输入;SW_RX:单线半双工模式的接收引脚(替代 RX)。 同步引脚:SCLK:同步模式下的时钟输出&…

(LeetCode 动态规划(基础版))96. 不同的二叉搜索树 (递推 || 递归)

题目:96. 不同的二叉搜索树 思路:二叉树长度为n时,枚举每个点u作为根节点root,那么root左边的数构成左子树种数left,root右边的数构成右子树种数right,那么当前u为根节点下,二叉树的种数为left*…

vue项目使用svg图标

下面是在 Vue 3 项目中完整引入和使用 vite-plugin-svg-icons 的步骤 1、安装插件 npm install vite-plugin-svg-icons -D # 或 yarn add vite-plugin-svg-icons -D # 或 pnpm add vite-plugin-svg-icons -D 2、配置 Vite 在 vite.config.ts 或 vite.config.js 中配置&…

智能网卡之hinic3 WQE(Work Queue Element)结构梳理

hinic3 WQE(Work Queue Element)结构详解 本文基于 hinic3 驱动源码,对 WQE(Work Queue Element)做详细讲解。如需查阅完整源码和结构体定义可参考hinic3_nic_qp.h等文件。 1. WQE 的作用 WQE(Work Queue…

力扣HOT100之二分查找:4. 寻找两个正序数组的中位数

这道题如果没有时间复杂度的限制的话,相当好做,但是这道题要求时间复杂度为O(log(m n)),思路很难想,我看了一圈题解,发现华南溜达虎的视频讲得还不错,我是参考他的思路写出来的,这里把他的思路…

PyTorch——损失函数与反向传播(8)

Loss Functions 越小越好 L1loss MSELoss 损失函数 CrossEntyopyLoss 损失函数 import torch from torch.nn import L1Loss from torch import nn# 创建输入和目标张量,用于后续的损失计算 inputs torch.tensor([1,2,3],dtypetorch.float32) targets torch.tenso…