AI大模型应用之评测篇

news2025/5/24 1:16:05

在看到公司对于AI 工程师 的岗位要求 :“能够熟练使用各种自动化评测工具与方法,对AI 模型的输出进行有效评估” 时,其实比较疑惑,这个是对大模型能力例如像Deepseek ,GPT-4 ,千问,LLAMA这些模型的能力评测,还是对Agent 类应用结合实际业务的应用输出能力的评测,带着这个问题探寻一下,大概感觉是包含这两者,评测应该是一个泛指的概念,针对AI 领域相关的应用落地效果的评估。

1. 什么是大模型的评测技术

看下Deepseek怎么说 ?

感觉DeepSeek给出了比较官方的阐述:

AI 领域的评测是指通过系统化的方法和工具对人工智能技术的性能,可靠性,适用性及伦理性进行全面评估的过程,其核心目标是验证AI 在不同场景下的实际效果,确保其技术价值与社会需求相匹配。

感觉其实就是回到开篇所说的,评测其实涉及了多个方面:技术性能,硬件评测,应用场景评测,伦理与安全评测等。在网上搜索了一轮和跟着deepseek学习了一轮后,发现了flageval,openCompass 这两个比较专业的评测平台,其实关于大模型评测相关的内容可以在这两个网站上看到比较专业全面的内容。

2. 评测框架

市面上对于AI 大模型评估的平台涉及了性能,伦理,安全,效率等维度,常见的平台有下面这些,看起来有些没有UI 页面的,还是要使用python 写脚来进行评测。 不同的评测需求选择的评测平台各不一样,评测的选型也不一样。

deepseek给出的关于评测的选型:

  1. 研究需求:学术研究优先选择开源工具(如LM Evaluation Harness),企业需合规报告则选Scale AI。
  2. 任务类型
    • NLP:Hugging Face Leaderboard、OpenAI Evals。
    • 多模态:VALSE、MMBench。
    • 代码生成:HumanEval、CodeX。
  1. 资源限制:本地部署用EleutherAI工具,云端评测用W&B或SaaS服务。

3. 大模型评测工具实践

3.1. EleutherAI 综合评测

EleutherAI LM Evaluation Harness 开源的统一评价框架,支持对GPT、T5、BERT等模型在语言理解,推理,知识检索等任务上的标准化评估。

开源链接:

GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.

1、环境准备:

# 创建虚拟环境
conda create -n eval-harness python=3.9
conda activate eval-harness

# 安装核心库
pip install lm-eval==0.4.0
pip install torch transformers

# 命令行执行
lm-eval \
  --model hf-causal \
  --model_args pretrained=EleutherAI/gpt-j-6B \
  --tasks lambada \
  --device cuda:0 \
  --batch_size 16

# 输出示例
| lambada | Accuracy | 68.5% |  #准确率
|         | Perplexity | 12.3 | #模型疑惑度,越低越好,说明模型对提问的意外程度 

在本地mac 部署的过程中,pip install lm-eval==0.4.0,安装依赖总是装不成功,公司电脑又有软件安装限制,最终没有跑成功~

3.2. OpenCompass

主页 :OpenCompass司南

OpenCompass 上海AI Lab开发的大模型评测平台,这个社区里面还是有很多个各种维度的评测工具合集,还是蛮全的。 分了几大类的排行,deepseek还是遥遥领先呀,还有多模态的和对战邦兴

openCompass 使用文档:

安装 — OpenCompass 0.4.2 documentation

可以自己本地运行命令 ,也可以直接平台运行评测任务,还是蛮方便的。

3.3. FlagEval

主页: FlagEval

国内的评测平台 ,涉及到了自然语言处理(NLP) ,多模态(MultiModal) , 计算机视觉(CV), 语音(Audio)四大评测领域

评测流程:

4. 大模型评测基准

常见的大模型平常指标有MMLU(Massive Multitask Language Understanding) ,C-EVAL (Chinese Evaluation Benchmark) ,superCLUE (Super Chinese Language Understanding Evaluation) ,这些其实是一些测评的数据集。

三者的对比与选型,区分有中英文理解。

CMMLU评测代码:GitHub - haonan-li/CMMLU: CMMLU: Measuring massive multitask language understanding in Chinese

C-Eval评测代码:GitHub - hkust-nlp/ceval: Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]

知乎里面有一个关于评测的数据集的相关的介绍:

https://zhuanlan.zhihu.com/p/658725797

除了上面三者,还有其他一些评测指标:

可能的指标包括:

1. **推理与逻辑**:Big-Bench Hard(BBH)、DROP

2. **伦理与安全**:ToxiGen、RealToxicityPrompts

3. **多模态**:VQA、MMBench

4. **代码生成**:HumanEval、MBPP

5. **效率与资源消耗**:训练吞吐量、推理延迟

6. **语言生成质量**:Perplexity、BLEU、ROUGE

7. **特定任务**:GLUE、SuperGLUE

8. **交互与对话**:Chatbot Arena、DSTC

9. **数学能力**:MATH、GSM8K

10. **真实性与事实性**:TruthfulQA、FACTOR

评测的选型需要结合3-5项核心指标+ 1-2 项垂直领域指标

5. 主流大模型评测结果

看到b站上有一个播放量最多的对各大模型的评测结果(此时deepseek还没出来),也开源了,从 10个维度进行评测:基础能力,发散创作,日常创作,逻辑问题,文学创作,数据能力,代码,知识理解,时效问题啊,多模态 几大类型进行了一个深度评测,评测结果如下图:

评测的问题:GitHub - Turing-Project/LLMScenarioEval: Scenario-based Evaluation dataset for LLM (beta)

6. 智能体(Agent)评测

对于基于AI 大模型的智能体(Agent)和大模型的评测又有些许不同,Agent需要结合任务导向性,交互性和环境适应性机芯工评估, 需要在任务完成能力,多步推理能力,工具调用能力,交互质量,安全与伦理,资源效率等多个维度进行评估。评测推荐使用 自然指标(任务成功率)+人工评分(对话自然度)自行进行评估。

评测的工具还是蛮多的,deepseek也给出了很多工具及其详细用法,哎,科技发展进步神速的同事,人的想法,创新能力感觉都要用尽废退了,只要当个执行者就行了,哎,纯当一个不用脑子的执行者其实和人类我思故我在的思想是相悖的,反人性~~此时不免又来灵魂拷问。

7. RAG 系统评测

除去agent 的应用,那些基于RAG的系统评测又需要考虑哪些方面? 这个其实还是要围绕RAG 的几个模块展开,例如检索质量,生成质量,还有就是系统效率和领域适用性。

相关指标如下,主要指标有准确率域与召回率;生成文本与答案相关性(人工或者模型评分),生成内容虚构比例,检索延迟,端到端延迟等。

关于评测的一些基础内容本篇先到这,后面再深入实践一下~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2384256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力扣小题, 力扣113.路径总和II力扣.111二叉树的最小深度 力扣.221最大正方形力扣5.最长回文子串更加优秀的算法:中心扩展算法

目录 力扣113.路径总和II 力扣.111二叉树的最小深度 力扣.221最大正方形 力扣5.最长回文子串 更加优秀的算法:中心扩展算法 力扣113.路径总和II 这道题,让我明白回溯了到底啥意思 之前我找的时候,我一直在想,如果可以,请你对比…

el-form elform 对齐方式调整

如下页面表单&#xff0c;展示后就很丑。 页面表单&#xff0c;有时候我们想着最左侧的应该合理整齐的左对齐&#xff0c;右侧的表单都是右对齐&#xff0c;这样页面看起来会整洁很多。 <el-form class"w-100 a_form" style"padding: 0 15px 0px 15px"…

JESD204 ip核使用与例程分析(二)

JESD204 ip核使用与例程分析(二) JESD204时钟方案专用差分时钟对例程分析jesd204_0_transport_layer_demapperjesd204_0_sig_chkjesd204_0_clockingjesd204_0 ip核port寄存器AXI-LITE寄存器配置jesd204_phy ip核JESD204时钟方案 图3-1所示为最通用、灵活的时钟解决方案。在图…

50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | Blurry Loading (毛玻璃加载)

&#x1f4c5; 我们继续 50 个小项目挑战&#xff01;—— Blurry Loading 组件 仓库地址&#xff1a;https://github.com/SunACong/50-vue-projects 项目预览地址&#xff1a;https://50-vue-projects.vercel.app/ ✨ 组件目标 实现一个加载进度条&#xff0c;随着加载进度的…

演示:【WPF-WinCC3D】 3D工业组态监控平台源代码

一、目的&#xff1a;分享一个应用WPF 3D开发的3D工业组态监控平台源代码 二、功能介绍 WPF-WinCC3D是基于 WPF 3D研发的工业组态软件&#xff0c;提供将近200个预置工业模型&#xff08;机械手臂、科幻零部件、熔炼生产线、机加生产线、管道等&#xff09;&#xff0c;支持组态…

【PostgreSQL数据分析实战:从数据清洗到可视化全流程】1.4 数据库与表的基本操作(DDL/DML语句)

&#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 文章大纲 1.4 数据库与表的基本操作&#xff08;DDL/DML语句&#xff09;1.4.1 数据库生命周期管理&#xff08;DDL核心&#xff09;1.4.1.1 创建数据库&#xff08;CREATE DATABASE&…

如何在电脑上登录多个抖音账号?多开不同IP技巧分解

随着短视频的爆发式增长&#xff0c;抖音已经成为许多人生活和工作的必备平台。不论是个人内容创作者、品牌商家&#xff0c;还是营销人员&#xff0c;都可能需要管理多个抖音账号。如何在电脑上同时登录多个抖音账号&#xff0c;提升工作效率&#xff0c;避免频繁切换账号的麻…

【东枫科技】usrp rfnoc 开发环境搭建

作者 太原市东枫电子科技有限公司 &#xff0c;代理销售 USRP&#xff0c;Nvidia&#xff0c;等产品与技术支持&#xff0c;培训服务。 环境 Ubuntu 20.04 依赖包 sudo apt-get updatesudo apt-get install autoconf automake build-essential ccache cmake cpufrequtils …

【JAVA资料,C#资料,人工智能资料,Python资料】全网最全编程学习文档合集,从入门到全栈,保姆级整理!

文章目录 前言一、编程学习前的准备​1.1 明确学习目标​1.2 评估自身基础​ 二、编程语言的选择​2.1 热门编程语言介绍​2.2 如何根据目标选择语言​ 三、编程基础学习​3.1 变量与数据类型​3.2 控制结构​3.3 函数​ 四、面向对象编程&#xff08;OOP&#xff09;​4.1 OOP…

[IMX] 05.串口 - UART

目录 1.通信格式 2.电平标准 3.IMX UART 模块 4.时钟寄存器 - CCM_CSCDR1 5.控制寄存器 5.1.UART_UCR1 5.2.UART_UCR2 5.3.UART_UCR3 6.状态寄存器 6.1.UART_USR1 6.2.UART_USR2 7.FIFO 控制寄存器 - UART_UFCR 8.波特率寄存器 8.1.分母 - UART_UBIR 8.2.分子 -…

使用Tkinter写一个发送kafka消息的工具

文章目录 背景工具界面展示功能代码讲解运行环境创建GUI程序搭建前端样式编写功能实现代码 背景 公司是做AR实景产品的&#xff0c;近几年无人机特别的火&#xff0c;一来公司比较关注低空经济这个新型领域&#xff0c;二来很多政企、事业单位都采购了无人机用于日常工作。那么…

MongoDB 与 EF Core 深度整合实战:打造结构清晰的 Web API 应用

题纲 MongoDB 字符串连接 URIC# 连接字符串实例 实现一个电影信息查询 demo创建项目创建实体实现 DbContext 上下文仓储实现服务实现控制器实现服务注册快照注入数据库连接配置1. 注册配置类2. 注入 IOptionsSnapshot<MongoDbSettings>3. 配置文件 appsettings.json 示例…

重写B站(网页、后端、小程序)

1. 网页端 1.1 框架 Vue ElementUI axios 1.2 框架搭建步骤 搭建Vue 1.3 配置文件 main.js import {createApp} from vue import ElementUi from element-plus import element-plus/dist/index.css; import axios from "axios"; import router from…

文档债务拖累交付速度?5大优化策略文档自动化

开发者在追求开发速度的过程中&#xff0c;往往会忽视文档的编写&#xff0c;如省略设计文档、代码注释或API文档等。这种做法往往导致在后期调试阶段需要花费三倍以上的时间来理解代码逻辑&#xff0c;进而形成所谓的文档债务&#xff0c;严重拖累交付速度并造成资源浪费。而积…

【数据结构与算法】LeetCode 每日三题

如果你已经对数据结构与算法略知一二&#xff0c;现在正在复习数据结构与算法的一些重点知识 ------------------------------------------------------------------------------------------------------------------------- 关注我&#x1f308;&#xff0c;每天更新总结文章…

基于深度学习的电力负荷预测研究

一、深度学习模型框架 在当今数字化时代&#xff0c;基于深度学习的电力负荷预测研究正成为保障电力系统稳定、高效运行的关键领域。其模型构建是一个复杂而精妙的过程&#xff0c;涉及多学科知识与前沿技术的融合应用。首先&#xff0c;要明确电力负荷预测的目标&#xff0c;…

篇章十 消息持久化(二)

目录 1.消息持久化-创建MessageFileManger类 1.1 创建一个类 1.2 创建关于路径的方法 1.3 定义内部类 1.4 实现消息统计文件读写 1.5 实现创建消息目录和文件 1.6 实现删除消息目录和文件 1.7 实现消息序列化 1. 消息序列化的一些概念&#xff1a; 2. 方案选择&#xf…

【IDEA】删除/替换文件中所有包含某个字符串的行

目录 前言 正则表达式 示例 使用方法 前言 在日常开发中&#xff0c;频繁地删除无用代码或清理空行是不可避免的操作。许多开发者希望找到一种高效的方式&#xff0c;避免手动选中代码再删除的繁琐过程。 使用正则表达式是处理字符串的一个非常有效的方法。 正则表达式 …

基于深度学习的不良驾驶行为为识别检测

一.研究目的 随着全球汽车保有量持续增长&#xff0c;交通安全问题日益严峻&#xff0c;由不良驾驶行为&#xff08;如疲劳驾驶、接打电话、急加速/急刹车等&#xff09;引发的交通事故频发&#xff0c;不仅威胁生命财产安全&#xff0c;还加剧交通拥堵与环境污染。传统识别方…

第十周作业

一、CSRF 1、DVWA-High等级 2、使用Burp生成CSRF利用POC并实现攻击 二、SSRF&#xff1a;file_get_content实验&#xff0c;要求获取ssrf.php的源码 三、RCE 1、 ThinkPHP 2、 Weblogic 3、Shiro