司南评测集社区 3 月上新一览!

news2025/5/11 2:22:53

司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。

2025 年 3 月,司南评测集社区新收录了一批评测基准,覆盖多模态、法律和 Agent 等方向。以下为部分新增评测集的介绍,欢迎大家下载使用。

司南评测集社区链接:

https://hub.opencompass.org.cn/home

MiLiC-Eval

发布单位:

PKU

发布时间:

2025-03-03

评测集简介:

MiLiC-Eval 是针对中国少数民族语言的 NLP 评估套件,涵盖藏语(bo)、维吾尔语(ug)、哈萨克语(kk,哈萨克阿拉伯语)和蒙古语(mn,传统蒙古语)。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MiLiC-Eval

ToolRet

发布单位:

Shandong University, Baidu Inc, etc.

发布时间:

2025-03-03

评测集简介:

ToolRet 是一个大规模工具检索基准,包括从现有数据集资源中收集的 7.6k 不同的检索任务和 43k 工具语料库。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/ToolRet

SwiLTra-Bench

发布单位:

Harvey, ETH Zurich, etc.

发布时间:

2025-03-03

评测集简介:

SwiLTra-Bench,这是一个包含超过 18 万个对齐的瑞士法律翻译对的综合多语言基准,涵盖了所有瑞士语言以及英语的法律、标题说明和新闻稿,旨在评估基于大型语言模型的翻译系统。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/SwiLTra-Bench

Deepfake-Eval-2024

发布单位:

TrueMedia.org, University of Washington, etc.

发布时间:

2025-03-04

评测集简介:

Deepfake-Eval-2024是一个现实世界中的深度伪造数据集。Deepfake-Eval-2024 包含 44 小时的视频、56.5 小时的音频和 1,975 张图像,涵盖了当代操纵技术、多样化的媒体内容、来自 88 个不同网站来源以及 52 种不同的语言。Deepfake-Eval-2024 包含手动标记的真实和伪造媒体。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/Deepfake-Eval-2024

MCiteBench

发布单位:

Fudan University, Shanghai University, etc.

发布时间:

2025-03-05

评测集简介:

MCiteBench 是一个用于评估多模态大语言模型(MLLMs)中多模态引用文本生成的基准。它包括来自学术论文和评审反驳交互的数据,重点关注引用质量、来源可靠性和答案准确性。MCiteBench 由来自 1749 篇学术论文的 3000 个样本组成,具有 2000 个解释任务和 1000 个定位任务,在文本、图表、表格和混合模态中具有平衡的证据。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MCiteBench

MASK

发布单位:

Center for AI Safety, Scale AI

发布时间:

2025-03-05

评测集简介:

MASK 为评估大型语言模型的诚实性提供了一个严格的基准,它通过测量模型在被激励说谎时是否仍保持真实来进行评估。公开集包含 1028 个高质量的人工标注示例,涵盖六种不同的原型,每个原型都由一个命题、基本事实、旨在引发说谎的压力提示以及用于确定模型实际知识的信念引出提示组成。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MASK

IFIR

发布单位:

UCAS, ZJU, etc.

发布时间:

2025-03-06

评测集简介:

IFIR是一个旨在评估专家领域中 instruction-following 信息检索(IR)的综合基准。IFIR 包括 2,426 个高质量示例,涵盖四个专业领域的八个子集:金融、法律、医疗保健和科学文献。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/IFIR

MastermindEval

发布单位:

Humboldt-Universität zu Berlin, DFKI Berlin

发布时间:

2025-03-07

评测集简介:

MastermindEval 使用猜谜游戏棋盘评估大型语言模型的推理能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MastermindEval

FedMABench

发布单位:

ZJU, SJTU, etc.

发布时间:

2025-03-07

评测集简介:

FedMABench 是一个开源基准,用于Mobile Agents 的联合训练和评估,专为异构场景设计。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/FedMABench

KnowLogic

发布单位:

PKU, Huawei Noah’s Ark Lab

发布时间:

2025-03-08

评测集简介:

KnowLogic 是一个知识驱动的综合基准,旨在评估大型语言模型(LLM)的推理能力。它包括 5400 个跨不同领域的双语(中英文)问题,涵盖常识知识和逻辑推理的不同方面。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/KnowLogic

UrbanVideo-Bench

发布单位:

THU

发布时间:

2025-03-08

评测集简介:

UrbanVideo-Bench 旨在评估视频大型语言模型(Video-LLMs)是否能够像人类一样自然地处理连续的第一人称视觉观察,从而实现回忆、感知、推理和导航。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/UrbanVideo-Bench

ProJudge

发布单位:

WHU, USTC, etc.

发布时间:

2025-03-09

评测集简介:

ProJudge 是一个综合性、多模态、多学科和多难度的基准,专门用于评估基于 MLLM 的流程法官的能力。它包含 2,400 个测试案例和 50,118 个步骤级标签,涵盖四个科学学科,具有不同的难度级别和多模态内容。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/ProJudge

VisualSimpleQA

发布单位:

Zhongguancun Laboratory, RUC, Tencent, etc.

发布时间:

2025-03-09

评测集简介:

VisualSimpleQA 是一个多模态事实查询基准,具有两个关键特征。首先,它能够对语言和视觉模态下的大规模语言视觉模型(LVLMs)进行简化且解耦的评估。其次,它纳入了明确的难度标准以指导人工标注,并便于提取具有挑战性的子集 VisualSimpleQA-hard。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/VisualSimpleQA

MedAgentsBench

发布单位:

Yale University, Stanford University, etc.

发布时间:

2025-03-10

评测集简介:

MedAgentsBench是一个专注于复杂医学推理的基准测试,从七个医学数据集中精选了 862 个挑战性问题。这些数据集包括 MedQA、PubMedQA、MedMCQA、MedBullets、MedExQA、MedXpertQA 和 MMLU/MMLU-Pro,涵盖了从医学执照考试到研究文献的多种医学问题。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/MedAgentsBench

ProBench

发布单位:

ANU, NTU, etc.

发布时间:

2025-03-10

评测集简介:

ProBench是一个包含需要大量专家级知识来解决的开放式多模态查询的基准。ProBench 包含 10 个任务领域和 56 个子领域,支持 17 种语言,并支持最多 13 轮对话。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/ProBench

V-STaR

发布单位:

Queen Mary University of London, NJU, etc.

发布时间:

2025-03-14

评测集简介

V-STaR 是 Video-LLM 的时空推理基准,评估 Video-LLM 在“何时”、“何处”和“什么”上下文中明确回答问题的时空推理能力。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/V-STaR

Creation-MMBench

发布单位:

Zhejiang University, Tongji University, etc.

发布时间:

2025-03-18

评测集简介

Creation-MMBench 是专为评估多模态大模型的创作能力而设计的多模态基准。采用两个不同指标对模型的基础感知能力和深层次视觉创作能力进行评估,采用 GPT-4o 作为评判模型进行评估。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/Creation-MMBench

ContextualJudgeBench

发布单位:

Salesforce AI Research

发布时间:

2025-03-19

评测集简介

ContextualJudgeBench 是一个具有 2000 个样本的成对基准测试,用于在两个上下文设置(上下文问答和摘要)中评估作为评判者的大语言模型。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/ContextualJudgeBench

BigOBench

发布单位:

Meta, Inria, etc.

发布时间:

2025-03-19

评测集简介:BigO(Bench)是一个包含约 300 个需要用 Python 解决的代码问题的基准测试,以及 3,105 个编码问题和 1,190,250 个解决方案用于训练,以评估 LLMs 能否找到代码解决方案的时间-空间复杂度,或者生成符合时间-空间复杂度要求的代码解决方案。

评测集社区链接:

https://hub.opencompass.org.cn/dataset-detail/BigOBench

·

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2327652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mac环境中Nginx安装使用 反向代理

安装 如没有Homebrew 先安装Homebrew 国内镜像: /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 安装成功后安装nginx: brew install nginx 启动nginx: nginx 或者 brew services st…

实战打靶集锦-36-Deception

文章目录 1. 主机发现2. 端口扫描3. 服务枚举4. 服务探查5. 系统提权6. 写在最后 靶机地址:https://download.vulnhub.com/haclabs/Deception.ova 1. 主机发现 目前只知道目标靶机在192.168.56.xx网段,通过如下的命令,看看这个网段上在线的主…

前端开发技术演进与就业现实:顺应时代方能不被淘汰-优雅草卓伊凡

前端开发技术演进与就业现实:顺应时代方能不被淘汰-优雅草卓伊凡 在技术浪潮汹涌的当下,常有人发问:“学习CSS、HTML、JS以后可以干什么?”对此,卓伊凡可以明确地给出答案:单纯学习这些过于基础的Web前端开…

敏捷开发:以人为本的高效开发模式

目录 前言1. 什么是敏捷开发?1.1 敏捷开发的核心理念1.2 敏捷开发的优势 2. 敏捷宣言:四大核心价值观2.1 个体和交互胜过工具和过程2.2 可工作的软件胜过大量的文档2.3 客户合作胜过合同谈判2.4 响应变化胜过遵循计划 3. 敏捷开发的实践3.1 Scrum&#x…

CAD插入属性块 弹窗提示输入属性值——CAD知识讲堂

插入属性块时,有时会遇到不弹窗输入属性值的情况,解决方案如下: 最好关闭块编辑器并保存,插入属性块即可弹窗。

Sentinel实战(三)、流控规则之流控效果及流控小结

spring cloud Alibaba-Sentinel实战(三)、流控效果流控小结 一、流控规则:流控效果一)、流控效果:预热1、概念含义2、案例流控规则设置测试结果 二)、流控效果:排队等待1、概念含义2、案例流控规…

PP-ChatOCRv3新升级:多页PDF信息抽取支持自定义提示词工程,拓展大语言模型功能边界

文本图像信息抽取技术在自动化办公、建筑工程、教育科研、金融风控、医疗健康等行业领域具有广泛应用场景。2024年9月,飞桨低代码开发工具PaddleX中新增文本图像智能产线PP-ChatOCRv3,充分结合PaddleOCR的文本图像版面解析能力和文心一言语言理解优势&am…

《二叉树:二叉树的顺序结构->堆》

二叉树一般可以使用两种结构存储,一种是顺序结构,一种是链式结构。 顺序存储 顺序结构存储是使用数组来存储,一般使用数组只适合表示完全二叉树,因为不是完全二叉树会有空间的浪费。实际上使用中只有堆才会使用数组来存储。二叉…

OpenLayers:封装Overlay的方法

平时在使用OpenLayers的Overlay时常感觉不便,于是最近我便封装了一些Overlay增删改查的方法,以提高可用性。这边文章中我会介绍我封装的方法,同时记录这个过程中踩的一些坑。 添加Overlay /*** abstract 添加overlay* param {*} map* param…

软件重构与项目进度的矛盾如何解决

软件重构与项目进度之间的矛盾可以通过明确重构目标与范围、采用渐进式重构策略、优化项目管理流程、提高团队沟通效率、建立重构意识文化等方式解决。其中,采用渐进式重构策略尤为关键。渐进式重构是指在日常开发过程中,以小步骤持续进行重构&#xff0…

数智化时代下开源AI大模型驱动的新型商业生态构建——基于AI智能名片与S2B2C商城小程序的融合创新研究

摘要 数字技术的指数级发展推动物理世界向数智化网状结构加速转型,传统商业逻辑面临系统性重构。本文以"开源AI大模型AI智能名片S2B2C商城小程序"为研究主体,采用案例分析与技术验证相结合的方法,揭示技术融合对商业生态的重塑机制…

Spring Cloud Alibaba 技术全景与实战指南

简介: Spring Cloud Alibaba 是阿里巴巴开源的微服务解决方案,基于 Spring Cloud 标准构建,提供了一站式分布式系统开发能力。它深度整合阿里云生态组件,为企业级微服务架构提供高可用、高性能的技术支撑。 核心特性 全栈微服务能…

回归预测 | Matlab实现NRBO-Transformer-BiLSTM多输入单输出回归预测

回归预测 | Matlab实现NRBO-Transformer-BiLSTM多输入单输出回归预测 目录 回归预测 | Matlab实现NRBO-Transformer-BiLSTM多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【JCR一区级】Matlab实现NRBO-Transformer-BiLSTM多变量回归预测&#xf…

Git的基础使用方法

本文最终功能: 1.从终端直接传输代码给仓库 2.用终端从仓库克隆文件 基本概念 我们先来理解下 Git 工作区、暂存区和版本库概念: 工作区:就是你在电脑里能看到的目录。 暂存区:英文叫 stage 或 index。一般存放在 .git 目录下的…

Java常用异步方式总结

使用建议 完整代码见https://gitee.com/pinetree-cpu/parent-demon 提供了postMan调试json文件于security-demo/src/main/resources/test_file/java-async.postman_collection.json 可导入postMan中进行调试 Java异步方式以及使用场景 继承Thread类 新建三个类继承Thread&…

苍穹外卖day12

课程内容 工作台 Apache POI 导出运营数据Excel报表 功能实现:工作台、数据导出 工作台效果图: 数据导出效果图: 在数据统计页面点击数据导出:生成Excel报表 1. 工作台 1.1 需求分析和设计 1.1.1 产品原型 工作台是系统运…

【Feign】⭐️使用 openFeign 时传递 MultipartFile 类型的参数参考

💥💥✈️✈️欢迎阅读本文章❤️❤️💥💥 🏆本篇文章阅读大约耗时三分钟。 ⛳️motto:不积跬步、无以千里 📋📋📋本文目录如下:🎁🎁&a…

Linux中动静态库的制作

1.什么是库 库是写好的现有的,成熟的,可以复⽤的代码。现实中每个程序都要依赖很多基础的底层库,不可能每个⼈的代码都从零开始,因此库的存在意义非同寻常。 本质上来说库是⼀种可执⾏代码的⼆进制形式,可以被操作系统…

forms实现连连看

说明: forms实现连连看 效果图: step1:C:\Users\wangrusheng\RiderProjects\WinFormsApp2\WinFormsApp2\Form1.cs using System; using System.Collections.Generic; using System.Drawing; using System.Linq; using System.Windows.Forms;namespace …

鸿蒙开发踩坑记录 - 2024S2

wrapBuilder如果想View和ObservedV2做绑定 必须要用 ComponentV2 Param 和 区别 退出两层循环 Builder的传入的参数及时是Trace修饰的也无法刷新组件 折叠屏展开后键盘无法点击 vm是公用的,组件生命周期问题导致 监听键盘高度变化失效 原因:分享面…