ChatGPT背后的技术和多模态异构数据处理的未来展望——我与一位资深工程师的走心探讨

news2025/7/10 9:27:02

上周,我和一位从业三十余年的工程师聊到ChatGPT。

作为一名人工智能领域研究者,我也一直对对话式大型语言模型非常感兴趣,在讨论中,我向他解释这个技术时,他瞬间被其中惊人之处所吸引🙌,我们深入探讨了ChatGPT的关键技术,他对我所说的内容产生了浓厚的兴趣,我们开始交流并分享了各自的经验。我发现,与这位资深工程师的讨论不仅加深了我的理解,也让我更加了解了这项技术的前沿发展🌱。

后续我也下面我将分享一些我在与工程师的讨论中和自己学习中所了解的ChatGPT的关键技术,希望对您有所帮助。

一、大规模语言模型

大规模语言模型(Large Language Models)是一类基于机器学习的自然语言处理技术,它能够对大量文本数据进行学习,从而生成一种对语言的抽象表示。

谈到大规模语言模型时,Transformers是一个不可避免的话题,可以说,大规模语言模型是自然语言处理领域的“流量入口”,而Transformer则是这一领域的“基石”。它们是如何相互作用的呢?

熟悉我的粉丝朋友们可能看过,我在早些时候总结的Transformer基础:横扫NLP 脚踏CV界的Transformer到底是什么 和 Transformer之十万个为什么。
在这里插入图片描述

总结来说:Transformer是一种用于处理序列数据的神经网络架构,传统的CNN、RNN(或者LSTM,GRU)计算是顺序的、迭代的、串行的,即只能从左向右依次计算或者从右向左依次计算,而Transformer使用了位置嵌入 (Positional Encoding) 来理解语言的顺序,使用自注意力机制(Self Attention Mechanism)和全连接层进行计算,所有字都是同时训练,具有更好的并行性。

大规模语言模型通常采用深度学习算法,通过大量的语料库来预训练模型,使其能够“理解”自然语言中的语义、语法和上下文等信息。而Transformer则是一种特殊的深度学习模型,核心是自注意力机制(self-attention)。在传统的RNN或LSTM模型中,每个元素的表示只能从之前的元素获得信息,这就存在信息流动的局限性,而自注意力机制允许每个元素能够获得来自序列中其他元素的信息,从而更全面地捕捉序列之间的依赖关系。
在这里插入图片描述

除了自注意力机制,Transformer还包括了一些其他的创新性组件,如多头自注意力、位置编码等。这些组件相互配合,使得Transformer模型能够在大规模语料上取得优秀的表现。

GPT 模型使用了 Transformer 的 Encoder 部分,Encoder 包括多个堆叠的自注意力机制(self-attention mechanism)层和前馈神经网络层。通过使用 Transformer 的自注意力机制,GPT 模型能够学习输入序列的上下文信息,并生成符合上下文的自然语言文本。

二、思维链

在聊天中,ChatGPT带给那位工程师另一项细思极恐的地方就是思维链。

思维链是指人们在思考或解决问题时,从一个概念或想法出发,逐步延伸联想,形成的一系列有机衔接的思维过程,基于大规模语言模型的自然语言处理技术。

它通过对文本数据进行训练,建立起词汇与概念之间的联系,每个词汇都被映射为一个高维向量,而这些向量之间的关系就是思维链的基础。通过对大量文本进行训练,模型学习到了不同词汇之间的关系,从而可以在输入一个词汇时,输出与之相关联的概念或其他词汇,进而构成一个完整的思维链。

试验时,我出了一道小学数学应用题,交给ChatGPT处理,可以看到,其不仅能够理解语言,更难得的是其能学习到应用数学的逻辑关系,并通过推理解决一定的问题。
在这里插入图片描述

可以说,ChatGPT作为一种基于Transformer结构的大规模语言模型,在构建思维链方面具有很高的优势。Transformer结构通过多层自注意力机制实现了文本序列中信息的交互和迭代,从而使得模型可以学习到更为复杂的词汇关系和语义表示。ChatGPT使用了非常大规模的训练数据和深度网络结构,可以处理大量的文本输入,从而更加精确地建立思维链。

三、强化学习

为了训练 ChatGPT 让其给出的答案更贴近人类,它在发布前采取了一种叫做“基于人类反馈的强化学习”的训练策略,当我们在使用ChatGPT这样的大规模语言模型进行对话时,我们的目标是让模型能够理解我们的意图,并作出合适的回应。这个过程中,模型需要从已有的数据中学习到哪些回应更能够符合用户的期望,这就是强化学习的策略。

智能体通过不断地试错学习,更新其策略,以最大化其获得累积奖励的期望值。这种学习过程可以通过价值函数来实现,价值函数可以分为状态价值函数和动作价值函数。在训练过程中,智能体通过对状态价值函数和动作价值函数进行更新来提高策略的性能。

强化学习是机器学习中的另一种学习方式,目标是让机器能够在与环境交互的过程中通过试错来学习如何最大化奖励,从而达到特定的目标。在强化学习中,机器不会像监督学习那样依赖于已有的标注数据,而是通过与环境的交互来获取实时的反馈和奖励,并根据这些反馈和奖励来调整自己的行为。

强化学习的核心思想是基于马尔可夫决策过程(Markov Decision Process,MDP)。在MDP中,智能体与环境交互的过程可以用一个五元组(S,A,R,P,γ)来描述。

M D P = ( S , A , P , R , γ ) \mathrm{MDP}=(\mathrm{S}, \mathrm{A}, \mathrm{P}, \mathrm{R}, \gamma) MDP=(S,A,P,R,γ)其中,S是状态(state)集,A是行为(action)集 ,R是奖励函数,P是状态转移概率(state transference概率)矩阵,γ是衰减因子。

在强化学习中,有两种基本的学习方法:值函数学习策略梯度学习。值函数学习通过学习一个值函数来估计每个状态的价值,并选择具有最高值的操作。策略梯度学习直接优化策略函数,即在给定状态下采取的操作。这两种方法都有各自的优缺点,可以根据应用场景选择合适的方法。

那么在与ChatGPT这样的大规模语言模型进行对话时,强化学习可以如何应用呢?一个常见的例子是使用强化学习来优化聊天机器人的回答质量。在这个过程中,机器会与用户进行多轮对话,每一轮都会根据用户的意图和回答的质量获得相应的奖励,同时机器也会根据自己的行为和环境的变化调整自己的策略,以期望获得更高的奖励。
除了自然语言处理方面,强化学习在图像处理、游戏玩法和机器人控制等领域都有广泛的应用。

四、未来展望——多模态异构数据处理

模态是指某件事情发生或经历的方式。每一种信息的来源或者形式,都可以称为一种模态。人类对世界的体验是多模态的例如触觉,听觉,视觉,嗅觉;而人类获取信息的媒介,有语音、视频、文字等;

为了让人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这种多模态信号。多模态机器学习旨在建立能够处理和关联来自多种模态的信息的模型。

当今的社交媒体中,包含了海量非合作、异构化、跨模态的数据,既蕴藏了大量的人类知识与高价值信息,也包含了各种自然与人为的噪声,对其分析与处理需要融合类脑计算、计算机视觉、自然语言处理等多个维度的智能技术。

谈及多模态异构数据处理,我们不得不提到现代数据处理中的一个热点领域——图文智能处理与多场景应用技术。近年来,这一领域得到了快速发展,应用也在不断拓展。
在这里插入图片描述
图像和文本是我们最常接触的两种模态,随着OCR技术应用的不断深入,面向图像文档中复杂结构(如汉字结构,表格结构,文档总体结构等)的建模问题也已经逐渐成为研究热点之一,如上图,用扫描全能王的“拍图识字”功能一键扫描识别竖排繁体古籍《桃花源记》,面对破损、皱褶的古籍,该功能通过分析图像图像文档复杂结构,进一步将古籍内容提取出来,赋予更加清晰、平整的古籍阅读体验。

图文智能处理与多场景应用技术不仅仅局限于图像图形领域,也涉及到自然语言处理、视频处理、人工智能等多个领域,未来可能会出现大量的、碎片化的应用范围,比如图像转文字,智能文档识别,文本生成头像、诗文、甚至短视频等,重点是在有趣的细分场景里发挥创造性和想象力。

在这个背景下,我也非常巧合地收到了CSIG图像图形企业行活动的邀请。

活动由中国图象图形协会(CSIG)主办,合合信息CSIG文档图像分析与识别专业委员会在3月18日联合承办。华南理工金连文教授上海交大杨小康教授复旦邱锡鹏教授厦大纪荣嵘教授中科大杜俊教授合合信息郭丰俊博士等顶尖专家们将交流分享对于图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等技术的展望。

在上海的朋友们可以点击链接:https://qywx.wjx.cn/vm/rhE9BxC.aspx线下参会!

不在上海的朋友们也可以通过直播间,预约观看,活动干货多多,全程亮点,本周六下午14.00,欢迎大家关注!
在这里插入图片描述

会后还有答疑环节,各位有什么想问的问题可以在评论区留言,我到时候线下可以面对面提问哦!,

参考文献

人人都能懂的ChatGPT解读[https://new.qq.com/rain/a/20230226A02Y7B00]

💡 最后

我们已经建立了🏤T2I研学社群,如果你还有其他疑问或者对🎓ChatGPT或者文本生成图像很感兴趣,可以私信我加入社群

🎉 支持我:点赞👍+收藏⭐️+留言📝

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/406244.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

读书笔记——《再见,平庸时代》

为什么会看这本书 《马斯克》这本书中,最后几段介绍了一下经济学家和作者泰勒考恩的两本书《大停滞》《再见,平庸时代》。《大停滞》讲的是美国这40年发展为何停滞,我当然不太关心这种内容。但是《再见,平庸时代》不是对历史的研究…

springboot 东方通(tongweb)替换tomcat

一.修改pom.xml文件依赖 1.排除springboot中内置的tomcat依赖 2.添加tongweb-spring-boot-starter和tongweb-embed依赖 特别说明下&#xff1a;我这里所有依赖的包都传到了私有仓库&#xff0c;直接复制到pom.xml文件会import失败。 <!-- SpringBoot Web容器 --> <d…

分享Python7个爬虫小案例(附源码)

本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点&#xff0c;非常适合刚入门python爬虫的小伙伴参考学习。注&#xff1a;若涉及到版权或隐私问题&#xff0c;请及时联系我删除即可。 1.使用正则表达式和文件操作爬取并保存“某吧”某帖子…

【uniapp小程序实战】—— 使用腾讯地图获取定位

文章目录&#x1f34d;前言&#x1f34b;正文1、首先看官网uni.getLocation(OBJECT)#注意2、腾讯位置服务平台申请密钥和下载SDK2.1 申请开发者秘钥2.2 开通webserviceAPI服务2.3 下载微信小程序JavaScriptSDK2.4 安全域名设置3、配置manifest.json文件4、示例代码展示4.1 引用…

如何用Python求解微分方程组

文章目录odeint简介示例odeint简介 scipy文档中将odeint函数和ode, comples_ode这两个类称为旧API&#xff0c;是scipy早期使用的微分方程求解器&#xff0c;但由于是Fortran实现的&#xff0c;尽管使用起来并不方便&#xff0c;但速度没得说&#xff0c;所以有的时候还挺推荐…

JavaScript基础(详细总结)

目录 1、JavaScript简介 1.2、JavaScript的发展史 1.3、JavaScript的功能 1.4、JavaScript的特点 1.5、JavaScript组成 2、JavaScript基础语法 2.1、HTML引入JS 2.1.1、内部引入 2.1.2、外部引入 2.2、JS输出数据的三种方式 2.2.1、浏览器弹窗 2.2.2、输出HTML页面…

IDEA实现前端页面登录,注册、增、删、改、查操作-完整版

分层思想&#xff1a;entity层&#xff1a;存放实体类vo层&#xff1a;消息模型&#xff08;重复使用的一些属性&#xff09;mapper层&#xff1a;接口&#xff08;写方法的&#xff09;mapper.xml:MyBatis与数据库相关的一些内容controller(web)层&#xff1a;接收前端传回的参…

谈谈ES5和ES6的区别

我们都知道JavaScript是由三部分组成&#xff1a; 1. ECMAScript(核心)&#xff1a;规定了语言的组成部分>语法、类型、语句、关键字、保留字、操作符、对象 2. BOM(浏览器对象模型): 支持访问和操作浏览器窗口&#xff0c;可以控制浏览器显示页面以外的部分。 3. DOM(文…

基于Python构建机器学习Web应用

目录 一、内容介绍 1.Onnx模型 ①skl2onnx库安装 2.Netron安装 二、模型构建 1.数据加载 2.划分可训练特征与预测标签 3.训练模型 ①第三方库导入 ②数据集划分 ③SVC模型构建 ④精度评价 二、模型转换及可视化 1.参数配置 2.Onnx模型生成 3.可视化模型 四、构…

报错ValidationError: Progress Plugin Invalid Options

背景&#xff1a;我改了文件的名字 他很多配置都没有了 我只能重新来 中途删了删掉node_modules和package-lock.json 也找了很多方法来重复配置着两个文件 最快的方法是 npm i -D vue 后面复原了之后又出现了很多问题 一直困恼我的是下面那个图片内容 背景&#xff1a;他…

Java Web入门 Web环境的搭建

文章目录 一、JDK开发工具包 a、下载JDK b、如何安装 c、配置Java环境变量。 d、测试环境变量是否安装成功 二、下载Tomcat服务器 a、Tomcat是什么&#xff1f;为啥要用它&#xff1f; b、如何下载 c、了解Tomcat的目录 d、如何知道自己Tomcat服务器有没有问题呢&#…

在 js 中,reduce() 的详解 以及使用方法

reduce&#xff08;&#xff09;&#xff1a; reduce&#xff08;&#xff09;方法为归并类方法&#xff0c;最常用的场景就是&#xff0c;计算数组中的每一项的总和。 reduce&#xff08;&#xff09; 方法会遍历数组的每一项&#xff0c;他接收两个参数&#xff1a; 第一个…

22.信息系统安全管理-策略7定.方案.安全体系架构.PKI.PMI

信息系统的安全威胁分成七类&#xff0c;从风险源的角度划分&#xff0c;可以将安全威胁划分为&#xff1a;自然事件风险、人为事件风险、软件风险、软件过程风险、项目管理风险、应用风险、用户使用风险。 信息系统安全四个层次:设备安全、数据安全、内容安全、行为安全。数据…

vite打包配置(静态资源合并打包/清除log/gzip压缩/ENV配置等)

2022/6/2更新 传了一下本项目代码,文章里写到的基本都有用到,可以clone了看一下 下载地址https://github.com/shinjie1210/vite-config.git---------------------------------------------------------------------------------------------------------------------------- …

基于vue的uni-app生态——学习笔记001

目录 vue的简介 什么是vue.js vue相比传统的js开发优势有哪些 vue的优势 与传统的开发文件相比的类型变换 与传统的开发相比开发文件内部架构的变化 uni-app生态&#xff08;编辑器的使用&#xff09; 编辑器的下载 编辑器的使用 基于vue开发的uni-app生态的文件结构…

CANoe中使用CAPL刷写流程详解(Trace图解)(CAN总线)

&#x1f345; 我是蚂蚁小兵&#xff0c;专注于车载诊断领域&#xff0c;尤其擅长于对CANoe工具的使用&#x1f345; 寻找组织 &#xff0c;答疑解惑&#xff0c;摸鱼聊天&#xff0c;博客源码&#xff0c;点击加入&#x1f449;【相亲相爱一家人】&#x1f345; 玩转CANoe&…

Vue初入,了解Vue的发展与优缺点

作者简介&#xff1a;一名计算机萌新、前来进行学习VUE,让我们一起进步吧。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;我叫于豆豆吖的主页 前言 从本章开始进行Vue前端的学习&#xff0c;了解Vue的发展&#xff0c;以及背后的故事。 一.vue介…

一、Django基础介绍

一、Django介绍 Python下有许多款不同的 Web 框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Django。Django 是一个开放源代码的 Web 应用框架&#xff0c;由 Python 写成。Django 遵守 BSD 版权&#xff0c;初次发布于 2005 年 7 月, 并于 2008 年 …

【Spring Cloud Alibaba】(二)微服务调用组件Feign原理+实战

系列目录 【Spring Cloud Alibaba】&#xff08;一&#xff09;微服务介绍 及 Nacos注册中心实战 本文目录系列目录前言什么是RPC&#xff1f;Feign和OpenFeign都是什么&#xff1f;HTTP调用 vs Feign(RPC)调用单独使用Feign实战Feign核心源码解读Feign整体设计架构Spring Clo…

学生为什么要在CSDN写博客?

学生为什么要在CSDN写博客&#xff1f;引言写博客的好处构建知识体系提升写作能力扩展人脉为简历加分帮助他人为什么是CSDN如何写博客记录学习总结错误总结与展望引言 就目前来说&#xff0c;学生应该是使用各种博客最多的人&#xff0c;但却不是写博客的主体。在我看来&#…