院士交锋,专家论道|NLP大模型技术与应用十大挑战,剑指AI未来

news2025/7/19 16:50:37

2023年2月24日下午,第四届OpenI/O启智开发者大会NLP大模型分论坛在深圳人才研修院隆重举办。

NLP大模型论坛会议现场

众多NLP领域顶级专家学者与多家国产NLP大模型开发团队汇聚一堂,学术界与产业界破圈交流,激荡尖端思想、分享前沿动态,院士、专家、从业者等行业领军人共话挑战、共商机遇、共谋发展,共同探讨“开源集智创新探索中文NLP大模型生态发展”。

清华大学计算机系教授、欧洲科学院外籍院士、ACL Fellow孙茂松,华为诺亚方舟实验室语音语义Lab主任蒋欣,IDEA研究院讲席科学家、认知计算与自然语言研究中心负责人张家兴,阿里巴巴达摩院资深算法专家、AliceMind大模型团队负责人黄松芳,清华大学计算机系副教授刘知远,蓝驰创投投资合伙人石建平,鹏城实验室-AITISA联盟算力网推进组组长余跃等专家出席会议并针对NLP领域热点问题做主题演讲。

圆桌讨论环节

在圆桌论坛环节,孙茂松、徐睿峰、黄松芳、刘知远、石建平、王晖作为嘉宾参与讨论,鹏城实验室云计算所副所长相洋进行主持。与会院士、专家围绕“NLP大模型技术与应用十大挑战”展开系列探讨,发表真知灼见和独到见解。

鹏城实验室云计算所副所长 相洋

第一大挑战:ChatGPT现象级产品出现以后,中国NLP领域在学术研究和技术攻关方面会发生什么变化?趋势是什么?

孙茂松提出在新技术刚出来的阶段,重点在于技术上能不能实现。在未来两年内可以先做大模型,再做小模型,从而达到技术上很大的改观。

清华大学计算机系教授 孙茂松

黄松芳认为超大模型需要率先部署推理,不同层次的模型才有服务和发展的空间。

徐睿峰分析到所有研究都是创兴和演进的过程,ChatGPT并非终端形态。

第二大挑战:当模型变到百亿千亿,它的微调会变得非常困难,对于十亿、百亿的大模型,如何对它进行微调、让它更好地适配到下一个任务?

刘知远提出,在这种情况下,我们可以做到仅仅去优化其中非常少的一部分参数,而保持整个模型的大部分参数不变,就可以完成任务的适配。这样处理,一方面,在计算上可以节省50%到70%的显存;另一方面,在存储上,所有模型的大部分参数都不需要变化,这样就不再需要针对每一个任务去存全参数为调的大模型。

清华大学计算机系副教授 刘知远

第三大挑战:从国家的角度来讲,有没有可能调动全社会的力量,各个阶层各个产业的力量,共同把这个事情做大做好?

石建平认为,人工智能实际上代表的是一个文明,权威的中国史书必定由中国人自己书写。权威的高质量的数据的分发,无论是对国家来说还是对产业界来说,对建立中国特色的大模型都具有非常大的作用。

王晖表示,从国家的角度来说,首先基于鹏城云脑建中国算力网,就是为了支持国家的战略,大模型的战略,大模型未来可能会成为国家各种政治、安全,在军事领域会全方位渗透,肯定是国家的杀手锏武器,国家必须在这方面掌握主动权;另外从数据的角度,数据是国家重大的工程,数据工程要秉持开源开放的原则,大家共建共享,通过开源开放提供给全社会,为国家战略服务。

孙茂松提到,数据安全和隐私问题,离不开政府指导意见。同时,科技机制的创新, 既需要政府,也需要企业。

第四大挑战:从企业的角度来讲,头部企业是不是应该合作起来?

黄松芳在企业是否应该互相合作的问题上,表示,大模型发展到一定程度,最大的壁垒其实是数据。头部企业无论是要做算力聚合,还是要做数据聚合,都有一定的复杂性,同时,也必须要在国家规定的框架里行事。

阿里巴巴达摩院资深算法专家 黄松芳

第五大挑战:目前,推动开源开放路线的困境和挑战是什么?

王晖表示,AIGC的出现、ChatGPT的爆火都表示未来是智能计算,从云计算到智能计算,以智能驱动为核心的计算时代可能就要到来,中国算力网就是支撑这种智能时代的基础设施。但现在有一个问题,我们不能完全基于GPU、英伟达的机器,以国家实验室来支撑向社会的开放,以补贴的方式来让用户更多的使用,是我们的远景。

孙茂松指出,算力和算力网都是必要的,国产芯片和国产开源环境发展仍然需要国家力量支撑,目前来看,鹏城实验室很适合做这个事情。

徐睿峰从未来发展的角度分析,支持国产平台架构迭代更新势在必行,这也是鹏城实验室和中国算力网赋予它的国家级层面重大的任务,国家级平台有责任推动这件事。

哈尔滨工业大学深圳计算机学院教授 徐睿峰

第六大挑战:OpenAI自GPT3后的很多大模型都不开源了,从技术发展和商业诉求两方面综合考虑如何看待这种现象?将来的发展趋势可能是什么?

石建平从学术界出发认为大模型要坚持开源开放,国内的软件行业这几年从企业服务到基础设施受惠于开放,要长期开源,也需要商业闭环。

蓝驰创投投资合伙人 石建平

第七大挑战:中国算力网是目前国家正在推进的重大项目,算力网建立以后的应用生态怎么构建?怎么支持更大的生态体系?

王晖认为中国算力网是支撑智能时代的基础设施,大模型智能时代要重新考虑应用生态需要重新构建。

鹏城实验室云计算所研究员 王晖

孙茂松则指出算力问题,强大的算力网是很有必要的。单点的算力不够,需要把全国的力量集中起来。

徐睿峰支持国产开源开放平台建设通过编程架构和应用不断迭代演进,把算力问题解决掉,这也是鹏城实验室和中国算力网赋予它的国家级层面重大的任务。

总而言之,这需要各行各业的通力合作,包括高性能计算、芯片、网络通信、AI和广大用户,组织高度集中起来,才能更加提高工作效率。

第八大挑战:目前大模型逐渐统一到transformer的基础架构上,是否会有其他的更好的基础架构?

刘知远认为transformer不是最终形态,随着底层的硬件设计演进一系列的特性,transformer有很大演进的空间。

孙茂松则认为transformer的架构在未来几年颠覆不了,除非算力发展得更加强大,出现新的算法将transformer架构颠覆掉。

在圆桌讨论过程中,王怀民院士也提出问题与各位专家探讨,即第九大挑战:随着大模型承载的内容和数据越来越多,它能不能通过训练变得更“智能”,更自主地持续性学习?

刘知远提出三个相关发现:一是现在的大模型本身呈现出来的特性,数据要远小于本来假设的大模型的参数需要的数据规模,在满足过参数化现象的阶段,数据越多,效果会越好。二是ChatGPT所表现出来的差别会体现在百亿模型和千亿模型,千亿模型的记忆力比百亿模型强很多,从这一点上来说,模型越大,记忆力越强。三是神经元的特异性以及模块化稀疏激活的现象,完全可以做到只是在跨模型之间实现迁移的能力。

孙茂松则提出了GPT3用语言模型实现了功能分区的大胆猜测。观察大模型比观察人脑要方便得多,实际上大模型为研究人脑提供了一个绝佳的实验条件。

王怀民院士认为大模型产生后,获得了观察智力或者认知的人造模型,人工构造的结构通过深度网络的学习能够产生人类相似的能力。大模型既然能实现功能分区,还能形成稀疏关系,而不是对全网的破坏性影响。认知本质的问题在于研究观察新手段,按照目前算力网络基础设施继续建设的话,我们可以让网络的连接远超出一个人的神经网络,持续把人类积累的文明都吸纳进去,用工程化的方法进行探索和实践。

中国科学院院士 王怀民

发言的最后,王怀民院士升华了问题的讨论,首先他指出我们做的很多事情不应该只看经济成本,而要看对社会、国家、人类的积极拉动作用;其次,像中国算力网这样跨时代基础设施的建成,将会爆炸式的点燃国家创新能力,极大繁荣我国人工智能技术发展,赋能各行各业产生巨大价值。

他表示,在中国我们要有更大的视野,建设算力网,一方面要建设软硬件,另一方面也要建设引爆性要素。开源生态的意义就在于互相成就,通过开源,我们将做到智力融资,我们也将以更低的成本找到通路人和同路人。人类社会的发展,依靠的就是并肩同行。

第十大挑战:NLP大模型技术所面临的挑战以及未来的方向展望。

黄松芳认为一是要正视差距,二是要脚踏实地,争取带动大模型领域新的研究。

徐睿峰从自然语言发展的历史出发,在数据层面统一的解决方式仍然存在着鲁棒性不佳的问题;从因果机制的角度出发,在data追问的同时应该考虑data和knowledge共同追问的研究。

孙茂松提出要加强对大末学科学激励的研究,未来,这有可能推动人工智能提升到新的境界。

石建平、王晖、刘知远认为ChatGPT吹响了通往人工智能的号角,呼吁更多的青年学生加入到大模型的研究中,鼓励年轻学者拥抱AI时代,开源生态,构建未来。

本次论坛的成功举办,离不开鹏城实验室、新一代人工智能产业技术创新战略联盟(AITISA)的大力支持。院士、专家、从业者、在场观众对于NLP大模型技术与应用落地相关问题进行探讨,希望可以汇聚智慧,打破壁垒,形成共识,并通群策群力、开源开放,进一步突破探索,打造出具有中国特色的NLP解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/395492.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux学习第二十二节-网卡IP设置

1.修改网卡IP地址 方式一:通过修改网卡配置文件修改 网卡配置文件位置: /etc/sysconfig/network-scripts/网卡名 #ifconfig 表示用于显示和设置网卡的参数 #ip addr 表示用于显示和设置网卡的参数 #systemctl restart network 表示重启网络 …

Spark Join大小表

Spark Join大小表无法广播过滤后大小表数据分布均匀大小表 : 大小表尺寸相差 3 倍以上 Join 优先考虑 BHJ小表的数据量 > 广播阈值时,优先考虑 SHJ 无法广播 大表 100GB、小表 10GB,都远超广播变量阈值 当小表的尺寸 > 8GB时,创建广…

剑指-Offer-30-包含min函数的栈

剑指 Offer 30.包含min函数的栈 题目描述: 定义栈的数据结构,请在该类型中实现一个能够得到栈的最小元素的 min 函数在该栈中,调用 min、push 及 pop 的时间复杂度都是 O(1)。 示例: MinStack minStack new MinStack(); minSt…

Python中的错误是什么,Python中有哪些错误

7.1 错误(errors) 由于Python代码通常是人类编写的,那么无论代码是在解释之前还是运行之后,或多或少总会出现一些问题。 在Python代码解释时遇到的问题称为错误,通常是语法和缩进问题导致的,这些错误会导致代码无法通过解释器的解…

2023年绿色建筑国际会议(ICoGB 2023)

2023年绿色建筑国际会议(ICoGB 2023) 重要信息 会议网址:www.icogb.org 会议时间:2023年5月19-21日 召开地点:斯德哥尔摩 截稿时间:2023年4月1日 录用通知:投稿后2周内 收录检索&#xff…

剑指 Offer 61 扑克牌中的顺子

摘要 扑克牌中的顺子 一、集合 Set 遍历 根据题意,此5张牌是顺子的 充分条件 如下: 除大小王外,所有牌 无重复 ;设此5张牌中最大的牌为max,最小的牌为min(大小王除外),则需满足…

深入理解浏览器解析机制和XSS向量编码

目录 1、HTML解析 字符实体(character entities) HTML字符实体(HTML character entities) 字符引用(character references) 在HTML中有五类元素 五类元素的区别如下 深入了解下RCDATA元素 2、URL解析 3、JavaScript解析 4、解析流 1、HTML解析 从XSS的角度来说&…

es倒排索引原理

1、简介 网上看到的一篇文章,对Lucene的倒排索引是如何执行的,说的比较易懂,就转过来分享下。 Elasticsearch是通过Lucene的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好,比如年龄在18和30之间&a…

kubeadm安装K8S(集群)

前言市面上很多k8s的安装工具,作为产品的设计者和推广者,K8S组织也知道自己的产品部署起来十分的困难,于是把开源爱好者写的工具kubeadmn收编为正规军,纳入到了自己的麾下。为什么我们要用kubeadmn来部署?因为kubeadm不…

【代码实践】DeepBDC for few-shot learning代码运行

DeepBDC是Jiangtao Xie等人在CVPR2022上提出的few-shot classification方法,论文全名为“Joint Distribution Matters: Deep Brownian Distance Covariance for Few-Shot Classification”。本文旨在记录在Window系统下运行该官方代码(https://github.co…

Linux学习第二十四节-Podman容器

一、容器的概念 容器是由一个或多个与系统其余部分隔离的进程组成的集合。我们可以理解为“集装箱”。 集装箱是打包和装运货物的标准方式。它作为一个箱子进行标记、装载、卸载,以及从一个 位置运输到另一个位置。该容器的内容与其他容器的内容隔离&#xff0c…

传统企业数字化转型真的有必要吗?应该如何做转型?

随着数字经济的快速发展,各行各业数字化转型成为必然。从最初的信息化建设,到数字企业、数字政府建设,再到如今的数字经济建设,传统企业在数字化转型中的作用越来越大。与此同时,数字化转型对传统企业提出了更高的要求…

【Java开发面试】AHXX面试总结

1. java中常用的集合有哪些 java中常用的集合类有List,Set,Map,其中List和Set继承了Collection。 List的实现类有:ArrayList,LinkedList,Vector,Stack Set的实现类有:TreeSet,HashSet Map的实现类有&#…

MySQL运维篇之读写分离

04、读写分离 4.1、介绍 读写分离,简单地说是把对数据库的读和写操作分开,以对应不同的数据库服务器。主数据库提供写操作,从数据库提供读操作,这样能有效地减轻单台数据库的压力。 通过Mycat即可轻易实现上述功能,…

02_Linux终端操作,shell命令,软件安装,文件系统结构,磁盘管理

目录 终端操作 常用Shell命令 Ubuntu软件安装方法 Ubuntu文件系统结构 绝对路径和相对路径 Ubuntn下磁盘管理 终端操作 打开终端快捷键Ctrlaltt 或鼠标右键 常用Shell命令 1.目录信息查看命令ls ls -a 显示目录所有文件及文件夹,包括隐藏文件,比如以.开头的 ls -l…

Synopsys Sentaurus TCAD系列教程之--Sprocess(SmallMOS_2D3D) 解析

SmallMOS_2D3D解析 #header## STI depth set sti_depth 0.15 ## Half STI width set sti_width sti_width ## Half gate length set gate_len <lg/2> ## SD length (from center) set sd_len [expr $gate_len0.05]#endheader## X lines line x location 0.0 spacing 0.…

OSI ARP TCP-IP HDCP

OSI七层参考模型分层名称基本功能应用层用户与网络、应用程序与网络的接口&#xff0c;直接向用户提供服务表示层处理用户信息的表示问题&#xff0c;如编码、数据格式转换和加密解密会话层组织和协调两个会话进程之间的通信传输层应用进程之间的连接&#xff0c;提供端到端的服…

Coremail邮件系统全新上线存档邮箱功能

邮箱积累邮件太多&#xff0c;搜索起来又慢又麻烦&#xff01; 我的重要邮件忘记下载丢失了&#xff01;14天自动删除太难了&#xff01; 有没有可能重要邮件自动存档&#xff0c;解救一下“遗忘星”人&#xff1f; 在我们日常工作中&#xff0c;邮件是最经常使用的办公工具之一…

Spark/Hive

Spark/HiveHive 原理Spark with HiveSparkSession Hive Metastorespark-sql CLI Hive MetastoreBeeline Spark Thrift ServerHive on SparkHive 擅长元数据管理Spark 擅长高效的分布式计算 Spark Hive 集成 : Hive on Spark : Hive 用 Spark 作为底层的计算引擎时Spark w…

【BOOST C++】组件编程(1)--动态链接库

一、说明 所谓组件工程&#xff0c;是指将某些功能函数&#xff08;类&#xff09;做成动态链接库的部分&#xff0c;在运行时调入。在调用功能类时&#xff0c;会调入、释放过程。因此&#xff0c;这里首先知道如何用动态链接库调入功能&#xff0c;然后知道如何才是组件。两个…