一定要看看的大模型【评测基准】及【评测报告】

news2025/7/27 21:44:11

评测标准

1.能力基础评测

为了检验大语言模型(LLM)的有效性和优越性,已有研究采用了大量的任务和基准数据集来进行实证评估和分析。根据任务定义,现有语言生成的任务主要可以分为语言建模、条件文本生成和代码合成任务。需要注意的是,代码合成不是典型的自然语言处理任务,但可以直接地用(经过代码数据训练的)LLM以类似自然语言文本生成的方法解决,因此也纳入讨论范围。

语言建模:语言建模是LLM的基本能力,旨在基于前一个token预测下一个token[15],主要关注基本的语言理解和生成能力;条件文本生成:作为语言生成中的一个重要话题,条件文本生成旨在基于给定的条件生成满足特定任务需求的文本,通常包括机器翻译、文本摘要和问答系统等;代码合成:除了生成高质量的自然语言外,现有的LLM还表现出强大的生成形式语言的能力,尤其是满足特定条件的计算机程序(即代码),这种能力被称为代码合成;闭卷问答任务测试LLM从预训练语料库中习得的事实知识。LLM只能基于给定的上下文回答问题,而不能使用外部资源;与闭卷问答不同,在开卷问答任务中,LLM可以从外部知识库或文档集合中提取有用的证据,然后基于提取的证据回答问题;在知识补全任务中,LLM(在某种程度上)可以被视为一个知识库,补全或预测知识单元(例如知识三元组)的缺失部分;知识推理任务依赖于逻辑关系和事实知识的证据来回答给定的问题。现有的工作主要使用特定的数据集来评估相应类型的知识推理能力;符号推理任务主要关注于在形式化规则设定中操作符号以实现某些特定目标,且这些操作和规则可能在LLM预训练期间从未被看到过;数学推理任务需要综合利用数学知识、逻辑和计算来解决问题或生成证明过程。以下为基础能力评测数据集表。

表 基础能力评测数据集表

基本任务 子任务 数据集
语言生成 语言建模 PennTreebank,WikiText-103,thePile,LAMBADA
语言生成 条件文本生成 WMT’14,16,19,20,21,22,Flores-101,DiaBLa,CNN/DailyMail,XSum,WikiLingua,OpenDialKG,SuperGLUE,MMLU,BIG-benchHard,CLUE
语言生成 代码合成 APPS,HumanEval,MBPP,CodeContest,MTPB,DS-1000,ODEX
知识运用 闭卷问答 NaturalQuestions,ARC,TruthfulQA,WebQuestionsTriviaQA,PIQA,LC-quad2.0,GrailQA,KQApro,CWQ,MKQA,ScienceQA
知识运用 开卷问答 NaturalQuestions,OpenBookQA,ARC,WebQuestions,TriviaQA,MSMARCO,QASC,SQuAD,WikiMovies
知识运用 知识补全 WikiFact,FB15k-237,Freebase,WN18RR,WordNet,LAMA,YAGO3-10YAGO
复杂推理 知识推理 CSQA,StrategyQA,ARC,Bool,PIQA],SIQA,HellaSwag,WinoGrande,OpenBookQA,COPA,ScienceQA,proScript,ProPara,ExplaGraph,ProofWriter,EntailmentBank,ProOntoQA
复杂推理 符号推理 CoinFlip,ReverseList,LastLeTter,BooleanAssignment,Parity,ColoredObject,PenguinsinaTable,RepeatCopy,ObjectCounting
复杂推理 数学推理 MATH,GSM8k,SVAMP,MultiArith,ASDiv,MathQA,AQUA-RAT,MAWPS,DROP,NaturalProofs,PISA,miniF2F,ProofNet

2.高级能力评估

高级能力评估有以下三种:

  1. 与人类对齐(人工评估)。
  2. 与外部环境的互动(生成例如清洁和烹饪任务清单,并根据清单及现实世界执行的成功率来评估能力)。
  3. 工具操作(例如数学问题求解,对逻辑推理及知识问答进行组合评估)。

与人类对齐(humanalignment)指的是让LLM能够很好地符合人类的价值和需求,这是在现实世界应用中广泛使用LLM的关键能力。为了评估这种能力,现有的研究考虑了多个人类对齐的标准,例如有益性、诚实性和安全性。对于有益性和诚实性,可以利用对抗性问答任务(例如TruthfulQA)来检查LLM在检测文本中可能的虚假性方面的能力。此外,有害性也可以通过若干现有的基准测试来评估,例如CrowS-Pairs和Winogender;除了标准评估任务外,LLM还具有从外部环境接收反馈并根据行为指令执行操作的能力,例如生成自然语言行动计划以操作智能体。LLM中具备这种能力,可以生成详细且高度逼真的行动计划,而较小的模型(例如GPT-2)倾向于生成较短或无意义的计划。为了测试这种能力,研究者提出了一些具身体感知的人工智能基准进行评估。VirtualHome构建了一个3D模拟器,用于家务任务(例如清洁和烹饪),代理人可以执行LLM生成的自然语言行动为了检验工具操作的能力,现有的工作大多采用复杂的推理任务进行评估,例如数学问题求解(例如GSM8k和SVAMP)或知识问答(例如TruthfulQA),其中成功操作工具对于增强LLM缺乏的所需技能非常重要(例如数值计算)。

3.评测基准

用于评估LLM的综合性评测基准如下所示:

  1. 基于MMLU的通用评测基准,用户大规模评测LLM的多任务知识理解能力。
  2. 基于Big-bench的通用评测基准,旨在从语言学、儿童发展、数学、常识推理等多方面探究现有LLM的能力。
  3. 基于HELM的综合性评测基准,目前包括16个核心场景和7类指标。
  4. 基于TyDiQA的大模型多语言知识利用评测基准。
  5. 基于MGSM的多语言数学推理评测基准。

4. 评测标准相关内容列表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

上表为不同任务对应的提示模版信息。
在这里插入图片描述

上表为,不同的调优策略的特点。“Additional”表示在LM参数之外是否有其他参数,而“Tunned”表示参数是否被更新。

评测报告

1.模型微调相关评测信息

近年来大型语言模型(指规模大于10B的模型)的统计数据,包括Evaluation、Pre-trainDataScale(以token数量或存储大小表示)和Hardware。在本表中,我们仅列举有公开论文介绍技术细节的大语言模型。这里,“ReleaseTime”表示相应论文正式发布的日期。“PubliclyAvailable”表示模型检查点可以公开获取,而“ClosedSource”则相反。“Adaptation”指模型是否经过了后续微调:IT表示指令微调,RLHF表示人类反馈的强化学习。“Evaluation”表示模型是否在原始论文中评估了相应的能力:ICL表示上下文学习,CoT表示思维链。“*”表示最大的公开可用版本。

表 文献场景理解能力在这里插入图片描述

下述是最近几年现有的大型语言模型(大小超过 10B)的时间轴。时间轴主要是根据模型技术论文的发布日期(例如提交到 arXiv 的日期)建立的。由于图表空间的限制,仅展示公开报告了评估结果的 LLM。

在这里插入图片描述

2.模型能力评测信息

任务类型:CR:常识推理。QA:问题回答。SUM:总结。机器翻译。语言能力探测。GCG:一般的条件生成。CKM:常识性知识挖掘。FP:事实探测。TC:文本分类。MR:数学推理。SR:符号推理。AR:类比推理。Theory:理论分析。IE:信息提取。D2T:数据到文本。TAG:序列标记。SEMP:语义解析。EVALG:文本生成的评估。VQA:视觉问题回答。VFP:视觉事实探测。MG:多模态接地。CodeGen:代码生成。PLM列列出了在相应的论文中用于下游任务的所有预先训练过的lm。GPT-like是一种自回归语言模型,它对原始的GPT-2架构进行了小的修改。SeTting列出了基于提示的学习的设置,可以是零镜头学习(零)、少镜头学习(很少)、完全监督学习(完整)。在“提示工程”下,形状表示模板的形状(Clo表示卷块式搜索,Pre表示前缀),Man表示是否需要人工努力,Auto表示数据驱动的搜索方法(光盘用于离散搜索,Cont用于表示连续搜索)。在“回答工程”下,形状表示答案的形状(Tok表示标记级别,Sp表示跨度级别,Sen表示句子级或文档级),人和自动与上面相同。“调优”列列出了调优策略(7)。TFP:无调优的提示。固定提示LM调优。固定LM提示调优。LMPT:LM+提示调优。Mull-Pr列列出了多提示的学习方法。PA:提示增强。PE:提示集成。PC:提示组成。PD:及时分解。

表 针对各任务的大模型的理解能评测表
在这里插入图片描述
在这里插入图片描述

表 文献场景理解能力

模型/场景 概述生成 敏感话题杜绝 摘要结构化 统一风格回答问题 多轮问答 专利生成 复杂输出任务
Chat-GLM-6B × × ×
Chat-GLM2-6B-32k × √√ √√
BloomZ-7B √√
T0PP-11B × × × × × ×
CLLaMA2-7B √√ √√ ×
MT0-13B × × × ×
PanguAlpha-6B × × × × ×
CLLaMA2-13B ×
Baichuan2-13B-Chat √√ √√ √√
ChatGPT4 √√ √√ √√ √√
ChatGPT3.5
文心一言 √√ √√
通义千问
星火
Vicuna-13B
商量

×表示不具备理解能力;√表示基本具备;√√表示效果最好

表 开源可调式模型训练推理显存使用结果

模型 训练显存占用 训练时间 推理显存占用 推理时间
GLM-6B 4-p100-15G 3day 1-p100-15G 30S
GLM2-6B - - 1-p100-16G 20S
BloomZ-7B-8bit 4-P100-14G 5day 1-p100-11G 13S
T0PP-11B × × - -
CLLaMA2-7B 5-p100-16G 4day 2-p100-15G 60S
MT0-13B × × 4-p100-16G 34S
PanguAlpha-6B - - 1-p100-11G 40S
CLLaMA2-13B - × 在线平台 49S
Baichuan2-13B-Chat - - 4-p100-16G 36S

-:表示未记录;x:算力不够测不出

3.具体评测信息

按照自己的要求,约束表达
中英文指示模版:

请用一段话总结三井号里面的句子。###目的:IL-6在肿瘤生物学中的临床应用价值。方法:查阅整理近十年来国内外关于IL-6的研究文献,对IL-6的生物特性,功能和应用等方面进行文献综述。结果:IL-6在生物学上的结构,功能和应用价值有了初步的成果。结论:为进一步阐明IL-6在肿瘤方面的作用及临床应用价值提供了依据。###

GLM-6B的测试效果

在这里插入图片描述
在这里插入图片描述

GLM2-6B测试效果

在这里插入图片描述
在这里插入图片描述

BloomZ-7B的测试效果

在这里插入图片描述
在这里插入图片描述

T0pp-11B(T5-plus拓展版)测试效果

在这里插入图片描述

C-LLaMA2-chat-7B(chat测试-时间有点长,基本60S)

网址:Llama27BChat-aHuggingFaceSpacebyLinkSoul

在这里插入图片描述
在这里插入图片描述

Mto-xxl-13B(T0最大版模型-基于T5拓展指令集的跨语言模型)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1156643.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt6:子窗口向父窗口传值

终于解决了这个问题!这才怀着激动的心情跑来记录一下。你们是不知道这其中的艰辛啊,太难了,差亿点就放弃学Qt了…… 此处苦水省略一万字…… 关于子窗口向父窗口传值的方法,在网上搜了不下百遍,免费的、付费下载、会员…

STM智能小车——OLED实现测速小车

目录 1. 测速模块 2. 测试原理和单位换算 3. 定时器和中断实现测速开发和调试代码 4. 小车速度显示在OLED屏 1. 测速模块 用途:广泛用于电机转速检测,脉冲计数,位置限位等。有遮挡,输出高电平;无遮挡,输出低电平接线…

0基础学习VR全景平台篇第115篇:转换为立方体面 - PTGui Pro教程

上课!全体起立~ 大家好,欢迎观看蛙色官方系列全景摄影课程!PTGui的软件教程到了这节课即将结束,我们此前历数各种编辑、优化全景的方法步骤,相信可以带给大家一些帮助。可是因为一些人力不可抗拒因素,造成…

SSM校园设备管信息管理系统开发mysql数据库web结构java编程计算机网页源码eclipse项目

选题理由 随着计算机网络及多媒体技术的广泛应用,互联网已成为高校办学的基础设施和必备条件,基于互联网的高校信息管理越来越综合化,越来越多的教学管理、行政管理工作将架构在互联网上,互联网正在变为学校实施教学、科研和管理…

图数据库Neo4j概念、应用场景、安装及CQL的使用

一、图数据库概念 引用Seth Godin的说法,企业需要摒弃仅仅收集数据点的做法,开始着手建立数据之间的关联关系。数据点之间的关系甚至比单个点本身更为重要。 传统的**关系数据库管理系统(RDBMS)**并不擅长处理数据之间的关系,那些表状数据模…

python爬取csdn的文章内容

今天写了一个爬取csdn文章的 初学不太会,下面代码有时间可以自行优化 新建python文件,把我的代码复制进去保存 把依赖python install 一下 import re import urllib.error import urllib.request import os import tkinter as tk from bs4 import Bea…

2023年Zotero最新同步教程-使用TeraCloud的25G免费空间实时跨设备同步文献

文章目录 1. 前言2.1. 注册账号2.1.1. 填写注册信息2.1.2. 创建账号成功2.1.3. 注意2.2. 扩容空间2.3. 打开WebDAV 3. Zotero配置WebDAV同步3.1. 设置网址3.2. 验证服务器3.3. 文件同步成功 4. 结语 1. 前言 Zotero免费版的存储空间是300m,一个图文PDF动辄两三M&am…

基于JAYA算法的无人机航迹规划-附代码

基于JAYA算法的无人机航迹规划 文章目录 基于JAYA算法的无人机航迹规划1.JAYA搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码 摘要:本文主要介绍利用JAYA算法来优化无人机航迹规划。 1.JAYA搜索算法 …

高效学习工具之AnkiMobile新手入门指南(ios端,包括ipad、ihpone设备)————创建、使用、备份、设置参数、相关资料

文章目录 0 背景0.1 闭环学习0.2 什么是anki 1 开始使用1.1 导入1.2 创建空白组1.3 创建卡片1.3.1 利用anki创建卡片的两种方法1.3.2 复习材料分类 1.4 筛选(做减法,拆分学习(做子卡牌集合))(核心&#xff…

集简云slack(自建)无需API开发轻松连接OA、电商、营销、CRM、用户运营、推广、客服等近千款系统

slack是一个工作效率管理平台,让每个人都能够使用无代码自动化和 AI 功能,还可以无缝连接搜索和知识共享,并确保团队保持联系和参与。在世界各地,Slack 不仅受到公司的信任,同时也是人们偏好使用的平台。 官网&#x…

3.12每日一题(有理函数不定积分)

两种方法: 1、拆项,然后分别加项减项拆,把分母降幂 注: x凑x的平方时前面要乘1/2 分子为x的平方可以分一个x去凑x的平方 2、联想三角有理函数公式,使用三角函数求解 用tant替换x;再通过二倍角公式降幂即可 …

自定义的卷积神经网络模型CNN,对图片进行分类并使用图片进行测试模型-适合入门,从模型到训练再到测试,开源项目

自定义的卷积神经网络模型CNN,对图片进行分类并使用图片进行测试模型-适合入门,从模型到训练再到测试:开源项目 开源项目完整代码及基础教程: https://mbd.pub/o/bread/ZZWclp5x CNN模型: 1.导入必要的库和模块&…

大模型时代的人工智能+大数据平台,加速创新涌现

大模型和MaaS概念的出现,定义了以模型为中心的一整套AI开发新范式,而这背后日益增长的巨大算力需求,对AI工程底座提出了新的挑战。今天,大模型时代下的人工智能大数据平台,需要具备计算效率、开发效率、处理效率为一体…

Java日志组件介绍之二

一、前言 Java日志组件介绍之一 主要介绍了JDK内置日志和Apache的common-logging通用日志接口,今天这篇我们继续了解Java其它一些日志组件。 二、slf4j slf4j即Simple Logging Facade for JAVA ,简单日志门面,类似common-logging&#xff0…

RBAC:基于角色的访问控制

1.介绍 RBAC是一种库表设计思想 基于角色的访问控制(RBAC)是实施面向企业安全策略的一种有效的访问控制方式。一种数据库的设计思想,其核心是角色。其基本思想是,对系统操作的各种权限不是直接授予具体的用户,而是在…

element表格自定义筛选

文章目录 前言一、简介二、效果展示三、源码总结 前言 提示:这里可以添加本文要记录的大概内容: …待续 提示:以下是本篇文章正文内容,下面案例可供参考 一、简介 修改el-table的筛选…待续 二、效果展示 三、源码 使用方法…

视频汇聚平台EasyCVR分发的流如何进行token鉴权?具体步骤是什么?

视频监控EasyCVR平台能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,在视频监控播放上,TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放,可同时播放多路视频流,也能支持视…

喜报!CACTER邮件安全网关荣获2023鲲鹏应用创新大赛广东赛区三等奖

近期,2023鲲鹏应用创新大赛广东赛区暨广东省信息技术应用创新产业联盟创新大赛圆满落幕,Coremail凭借“基于鲲鹏CPU的邮件网关一体机解决方案”,荣获“金融行业方向”三等奖。 ​ 鲲鹏凌粤 展翅湾区 本届大赛广东区域赛以“鲲鹏凌粤 展翅湾…

数据结构与算法-树和森林

🌞 “永远面朝阳光,阴影被甩在身后!” 树和森林 🎈1.线索二叉树🎈2.树和森林🔭2.1树的存储结构🔭2.2双亲表示法🔭2.3孩子链表表示法📝2.3.1孩子链表表示法的实现&#x1…

基于深度学习网络的美食检测系统matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 % 图像大小 image_size [224 224 3]; num_classes size(VD,2)-1;% 目标类别数量…