阿里云发布通义千问2.0,性能超GPT-3.5,加速追赶GPT-4

news2025/7/28 9:26:07

10月31日,阿里云正式发布千亿级参数大模型通义千问2.010个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。当天,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。

过去6个月,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,通义千问的综合性能已经超过GPT-3.5,加速追赶GPT-4。

图:通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4

在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上,通义千问2.0的得分整体超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小。

中英文理解能力是大语言模型的基本功。英语任务方面,通义千问2.0在MMLU基准的得分是82.5,仅次于GPT-4,通过大幅增加参数量,通义千问2.0能更好地理解和处理复杂的语言结构和概念;中文任务方面,通义千问2.0以明显优势在C-Eval基准获得最高得分,这是由于模型在训练中学习了更多中文语料,进一步强化了中文理解和表达能力。

在数学推理、代码理解等领域,通义千问2.0进步明显。在推理基准测试GSM8K中,通义千问排名第二,展示了强大的计算和逻辑推理能力;在HumanEval测试中,通义千问得分紧跟GPT-4和GPT-3.5,该测试主要衡量大模型理解和执行代码片段的能力,这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。

图:通义千问2.0发布

通义千问更成熟了,也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化,能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能,支持图片输入、文档解析等细分任务。

与此同时,基于通义大模型训练的8大行业模型组团上线,他们分别是通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手通义星尘-个性化角色创作平台通义点金-智能投研助手通义晓蜜-智能客服通义仁心-个人专属健康助手通义法睿-AI法律顾问8大行业模型面向当下最受欢迎的多个垂直场景,使用领域数据进行专门训练。用户可以在官网直接体验模型功能,开发者可以通过网页嵌入、API/SDK调用等方式,将模型能力集成到自己的大模型应用和服务中。

图:通义大模型家族全面升级,8大行业模型组团上线

截至10月,阿里云已与60多个行业头部伙伴进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。

周靖人透露,阿里云计划近期开源通义千问72B版本,此前,阿里云已先后开源7B和14B版本模型,模型累计下载量超过100万。阿里云将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。

图:通义千问72B即将开源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1156493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

聊一聊B端产品和C端产品的区别

To C 和 To B 的产品究竟有什么区别?难道仅仅只是使用对象和买单者不一样嘛?刚入行的产品经理是不是傻傻分不清楚?做产品经理这么久的你是否思考过这个问题? 作为一名产品经理,也设计过To B 和 To C的产品&#xff0c…

13年测试老鸟,软件测试经验总结分享,这几年你走了多少坑...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、测试阶段划分 …

个性化医疗:数字孪生的未来之路

数字孪生技术已经成为医疗领域的一项重要创新,为医疗保障提供了全新的可能性。它基于数学、物理和计算机科学原理,通过创建数字化模型和仿真来模拟生物系统和医疗设备。 1. 个性化治疗 数字孪生技术可创建患者的个性化模型,以更好地了解疾病…

Python 自动化(十六)静态文件处理

准备工作 将不同day下的代码分目录管理,方便后续复习查阅 (testenv) [rootlocalhost projects]# ls day01 day02 (testenv) [rootlocalhost projects]# mkdir day03 (testenv) [rootlocalhost projects]# cd day03 (testenv) [rootlocalhost day03]# django-admi…

C语言 每日一题 day9

求最大值及其下标 本题要求编写程序&#xff0c;找出给定的n个数中的最大值及其对应的最小下标&#xff08;下标从0开始&#xff09;。 输入格式 : 输入在第一行中给出一个正整数n&#xff08;1 < n≤10&#xff09;。第二行输入n个整数&#xff0c;用空格分开。 输出格式 …

Nodejs和npm的使用方法和教程

Nodejs简介 Node.js 是一个开源和跨平台的 JavaScript 运行时环境。 它几乎是任何类型项目的流行工具&#xff01; &#xff08; 运行环境&#xff0c;是不是很熟悉&#xff0c;对。就是 java JRE&#xff0c;Java 运行时环境&#xff09; Node.js 在浏览器之外运行 V8 Java…

2023 CSP-J题解

T1 小苹果 题目描述 理论分析 对于第一问&#xff0c;我们按照题意模拟每天取走的是多少个苹果即可。由于每天可以取走原来的,数据范围没次会降低到&#xff0c;也就是说这样的过程的时间复杂度可以用下式表示&#xff1a; 对于本题的数据范围n<1e9&#xff0c;这个时间复杂…

PHP/MySQL开发本地服务器软件 MAMP Pro for Mac

MAMP Pro是一款专为Mac用户设计的全功能本地服务器软件&#xff0c;可以将电脑变成一个完整的Web开发环境。无论个人开发者、网站管理员还是团队协作&#xff0c;MAMP Pro都提供了强大的工具和便捷的管理方式&#xff0c;能够更加高效地构建和测试网站。 MAMP Pro的基本功能包括…

数字IC前端学习笔记:优化的基4布斯编码华莱士树乘法器

相关阅读 数字IC前端https://blog.csdn.net/weixin_45791458/category_12173698.html 本文是对前文设计的乘法器&#xff0c;即基4布斯编码华莱士树乘法器的补充和优化&#xff0c;具体关于基4布斯编码和华莱士树的内容可以从以往的文章中获得。 数字IC前端学习笔记&#xff…

信息系统项目管理师教程 第四版【第11章-项目成本管理-思维导图】

信息系统项目管理师教程 第四版【第11章-项目成本管理-思维导图】 课本里章节里所有蓝色字体的思维导图

【HarmonyOS】ArkTS学习之二级菜单的实现

【关键词】 Menu、bindMenu、ArkTS 【实现方案】 方案一&#xff1a; 1、实现代码&#xff1a; Entry Component struct MenuExample {BuildermyMenu(){Menu(){MenuItem({content: 编译 Hap(s)})MenuItem({content: 编译 APP(s)})}}BuildersubMenu(){Menu(){MenuItemGroup(…

一次cs上线服务器的练习

环境&#xff1a;利用vm搭建的环境 仅主机为65段 测试是否能与win10ping通 配置转发 配置好iis Kali访问测试 现在就用burp抓取winser的包 开启代理 使用默认的8080抓取成功 上线

【向生活低头】win7打印机共享给win11使用,win11无法连接问题的解决

打印机是跟win7的电脑连接的&#xff0c;然后试了很多方法&#xff0c;win11都没法添加该打印机去使用。 网上的方法乱七八糟啥都有&#xff0c;但试了以后&#xff0c;发现基本没什么用。 刚刚发现知乎上的一个回答是有用的&#xff0c;这里做记录以备后用。 1.打开控制面板的…

cocosCreator 调用wxAPI 及后台授权设置、获取用户昵称和头像

版本&#xff1a; 3.8.0 语言&#xff1a; TypeScript 环境&#xff1a; Mac 官方文档&#xff1a; 微信官方文档 - 开放能力 微信 API 小游戏环境 在cocosCreator的3.x版本项目开发中&#xff0c;TypeScript最终会被转换为JavaScript语言。 JavaScript的运行时调用的API…

图解系列--L2交换机

大端&#xff0c;小端 网络上传输时&#xff0c;采用网络字节序。网络字节序为大端序。举例来说&#xff0c;对0x1020这样一个数值&#xff0c;按大端传输时&#xff0c;先传输0x10&#xff0c;再传输0x20&#xff1b;按小端传输时&#xff0c;先传输0x20&#xff0c;再传输0x…

Qt 中model/View 架构 详解,以及案例实现相薄功能

model/View 架构 导读 ​ 我们的系统需要显示大量数据,比如从数据库中读取数据,以自己的方式显示在自己的应用程序的界面中。早期的 Qt 要实现这个功能,需要定义一个组件,在这个组件中保存一个数据对象,比如一个列表。我们对这个列表进行查找、插入等的操作,或者把修改…

k8s---pod进阶

//资源限制 当定义 Pod 时可以选择性地为每个容器设定所需要的资源数量。 最常见的可设定资源是 CPU 和内存大小&#xff0c;以及其他类型的资源。 当为 Pod 中的容器指定了 request 资源时&#xff0c;调度器就使用该信息来决定将 Pod 调度到哪个节点上。当还为容器指定了 li…

super(props)与react类式组件

1 为什么super() super是对父类构造器的调用。使用了后会自动继承父类的属性。要把super&#xff08;&#xff09;放到第一行是因为了以防在super&#xff08;&#xff09;之前&#xff0c;也就是没实例化父类之前&#xff0c;访问父类的属性。所以js将此作为一个语法点&#x…

机器视觉能不能再火爆?大多数企业订单减少是现实,大多数企业维持现有的经营状态将会非常困难,就看人工智能和新兴产业能不能破门而入

每个人都讲机器视觉代替大量人工&#xff0c;可是真的吗&#xff1f;没有订单&#xff0c;人工的存在都没必要&#xff0c;需要什么机器视觉检测。 我们首先有一个问题&#xff0c;机器视觉行业之前有没有火爆过&#xff1f; 有&#xff0c;但是出现短暂之后是内卷。深度学习A…

STM32-LIN总线详解1

.硬件规范&#xff1a; 1.总线形式&#xff1a;一主多从 2.总线通常为12V电压&#xff0c;最高波特率20K&#xff0c;最多容纳16个节点。 也有24V&#xff0c;和其他电平需要共地。 3.总线上波形 4. 单片机STM32与LIN收发器在LIN_CAN开发板上设计。 1K电阻自动控制电路&…