视频链接:https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source=5d94ee72ede352cb2dfc19e4694f7622
教程文档:https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md
仓库:https://github.com/open-compass/opencompass
关于评测的三个问题

1、为什么需要评测?

2、需要测什么?

3、怎么测?

客观评测

有很多东西是客观评测评测不了的,因此只能使用主观评测的方式。

提示词工程

如果只是换了一个prompt,模型就回答错了。说明模型对prompt非常敏感,鲁棒性还不够好。
主流大模型评测框架

OpenCompass能力框架

OpenCompass是唯一一个由meta官方推荐的国内开发的大模型评测体系

OpenCompass开源评测平台架构

OpenCompass评测流水线设计

进行了推理优化,对评测任务进行了切分。
目前还在探索多模态能力的评测

同时也在探索垂直领域的评测
法律领域

医疗领域

大模型评测领域的挑战



![[完美解决]Vue/React项目运行时出现this[kHandle] = new _Hash(algorithm, xofLen)](https://img-blog.csdnimg.cn/direct/20a6b3b1dd8146a096eb7db5bca749d2.png)

![[C++]使用yolov8的onnx模型仅用opencv和bytetrack实现目标追踪](https://img-blog.csdnimg.cn/direct/f1efc65429964e61980cf8b7754d0af4.jpeg)














