【术语扫盲】评估指标Precision、Recall、F1-score、Support是什么含义?

news2025/6/9 7:33:37

一、背景

Precision、Recall、F1-score、Support 是分类问题中最常用的评估指标,它们是机器学习、深度学习、数据挖掘中非常基础也非常重要的术语。

二、 详细解释

指标含义公式
Precision(精准率)预测为某类的样本中,有多少是真的属于这个类的。TP / (TP + FP)
Recall(召回率)实际属于某类的样本中,有多少被你成功找出来了。TP / (TP + FN)
F1-score精准率和召回率的调和平均值,是它们之间的平衡。2 × (P × R) / (P + R)
Support每个类别在测试集中实际有多少个样本。——

TP(True Positive):预测对了,是真的。

FP(False Positive):预测错了,把不是的当成是的。

FN(False Negative):漏掉了,是真的没发现。

三、 大白话解释

我们用一个常见的例子:抓“小偷”,你是警察,模型是你抓人的直觉!

1、Precision(精准率): 抓到的人里,真的小偷占比多高

就是你抓的那些人,到底有多少小偷?

比如你抓了10个人,其中8个真的是小偷,那精准率就是 8 / 10 = 80%。

通俗说法:

“别乱抓路人啊,抓一个就得抓准了,别给自己找麻烦!”

2、Recall(召回率)= 所有小偷里,你抓住了多少

就是街上真的有小偷,你到底抓住了几个?

比如街上本来有100个小偷,你只抓到了20个,召回率就是 20 / 100 = 20%。

📢 通俗说法:

“你不能光会喊口号,小偷都跑了你才发现,叫啥警察?”

⚖️ F1-score = 平衡精准率和召回率的综合表现
有时候你精准率高(不冤枉好人),但漏抓很多;
有时召回率高(啥都抓),但冤枉一堆。

3、F1-score

“你要又抓得准、又不漏人,不能偏科!”

“既不能眼瞎乱抓人,也不能装瞎看不见人。”

4、 Support = 真正小偷和好人有多少

就是告诉你现场到底有多少个小偷、多少个好人,好评估表现。

“你一天只抓到1个小偷,那表现再好也没啥说服力啊;你抓了成千上万,那才是真本事!”

四、 应用场景

1、医疗诊断(癌症检测)

背景:识别一个病人是否患癌

Precision(精准率):预测为癌症的人中,有多少是真的癌症(误诊少)

Recall(召回率):所有癌症患者中,有多少被识别出来(漏诊少)

F1-score:精准率和召回率的平衡

Support:测试集里到底有多少癌症和非癌症患者

🧠 重点:宁愿多查一点假阳性(Precision 低一点),也不要漏掉真正的患者(Recall 要高)

2、金融风控(信用卡欺诈识别、逾期预测)

背景:识别用户是否会“逾期”或“刷爆卡跑路”

Precision:你说“会逾期”的用户里,实际逾期的比例(别误伤太多人)

Recall:所有真的会逾期的人中,识别出了多少(尽量别漏)

F1-score:金融机构希望兼顾风险与用户体验

Support:测试数据里,逾期与不逾期的人数比例往往严重不均衡

💰 重点:逾期是小概率事件,要想方设法提高对少数类的识别率(Recall)

3、垃圾邮件识别(文本分类)

背景:模型判断邮件是不是垃圾

Precision:预测为垃圾邮件的那些,有多少是真垃圾?(别冤枉正常邮件)

Recall:所有垃圾邮件中,被你识别出来的有多少?

F1-score:既不放过垃圾,也不误杀正常

Support:有多少垃圾邮件、多少正常邮件

📧 重点:精准率低,会让用户错过重要邮件;召回率低,会让垃圾邮件漏掉

4、人脸识别 / 安防监控

背景:识别“嫌疑人”是否出现在监控画面中

Precision:你报警的画面里,有多少是真的嫌疑人?(误报多会打扰警察)

Recall:真的嫌疑人出现了,你识别出来没?(漏报后果更严重)

F1-score:找平衡,既不乱报警也不漏掉坏人

Support:嫌疑人出现多少次 vs 正常人出现多少次

👮 重点:不同场景下要选择不同优先级,有的地方“宁可错杀一千”,有的地方则“错杀一个都不行”

五、总结:

Precision、Recall、F1-score 这三兄弟,是在分类模型中判断表现优不优的“法官”。
它们的组合帮助我们在各种场景下“少冤枉、少漏人、又聪明”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405111.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

应用层协议:HTTPS

目录 HTTPS:超文本传输安全协议 1、概念 2、通信过程及关键技术 2.1 通信过程 1> TLS握手协商(建立安全通道) 2> 加密数据传输 2.2 关键技术 1> 对称加密算法 2> 非对称加密 3> 对称加密和非对称加密组合 4> 数…

【ArcGIS技巧】—村庄规划规划用地规划状态字段生成工具

"国土空间规划后续也是走向数据治理,数据建库已经是涉及到城市规划、建筑、市政、农业、地理信息、测绘等等方方面面。不得不说以后数据库建设跟维护,是很多专业的必修课。小编就湖南省的村庄规划建库过程中规划用地用海中规划状态字段写了个小工具…

【PCIe总线】-- inbound、outbound配置

PCI、PCIe相关知识整理汇总 【PCIe总线】 -- PCI、PCIe相关实现 由之前的PCIe基础知识可知,pcie的组成有:RC(根节点)、siwtch(pcie桥)、EP(设备)。 RC和EP,以及EP和EP能…

分布式锁实战:Redisson vs. Redis 原生指令的性能对比

分布式锁实战:Redisson vs. Redis 原生指令的性能对比 引言 在DIY主题模板系统中,用户可自定义聊天室的背景、图标、动画等元素。当多个运营人员或用户同时修改同一模板时,若没有锁机制,可能出现“甲修改了背景色,乙…

react+taro 开发第五个小程序,解决拼音的学习

1.找一个文件夹 cmd 2.taro init 3.vscode 找开该文件夹cd help-letters 如:我的是(base) PS D:\react\help-letters> pnpm install 4.先编译一下吧。看下开发者工具什么反应。 pnpm dev:weapp 5.开始规则。我用cursor就是不成功。是不是要在这边差不多了&…

kafka(windows)

目录 介绍 下载 配置 测试 介绍 Kafka是一个分布式流媒体平台,类似于消息队列或企业信息传递系统。 下载 Kafka对于Zookeeper是强依赖,所以安装Kafka之前必须先安装zookeeper 官网:Apache Kafka 下载此安装包并解压 配置 新建log…

基于安卓的文件管理器程序开发研究源码数据库文档

摘 要 伴随着现代科技的发展潮流,移动互联网技术快速发展,各种基于通信技术的移动终端设备做的也越来越好了,现代智能手机大量的进入到了我们的生活中。电子产品的各种软硬技术技术的发展,操作系统的不断更新换代,谷歌…

EMC VNXe 存储系统日志收集方法

写在前面 有朋友找来看看VNXe的故障,这种问题总是要收集日志,顺便这里也分享给大家。 注意,VNXe和VNX 属于完全不同的产品,不要看名字很类似,操作系统已经完全重构了,如果说是否有联系,大概就…

从“人找政策”到“政策找人”:智能退税ERP数字化重构外贸生态

离境退税新政核心内容与外贸企业影响 (一)政策核心变化解析 退税商店网络扩容 新政明确鼓励在大型商圈、旅游景区、交通枢纽等境外旅客聚集地增设退税商店,并放宽备案条件至纳税信用M级企业。以上海为例,静安区计划新增1000家退…

以人类演示视频为提示,学习可泛化的机器人策略

25年5月来自清华大学、上海姚期智研究院和星动纪元(RoboEra)公司的论文“Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt”。 最近的机器人学习方法通​​常依赖于从通过遥操作收集的大量机器人数据集中进行模仿学习…

SOC-ESP32S3部分:36-适配自己的板卡

飞书文档https://x509p6c8to.feishu.cn/wiki/RP4UwPrsKi4xuQkKLAAcKxD3n1b 如果你自己画了PCB板,需要把自己绘制的板卡配置小智AI工程,可以参考此文档。 下载源码 克隆或下载源码到本地,这里以1.5.5为例,大家可以自行修改其它版…

LLMs 系列科普文(8)

八、模型的自我认知 接下来我们聊聊另一种问题,即模型的自我认知。 网上经常经常可以看到人们会问大语言模型一些关于认知方面的问题,比如“你是什么模型?谁创造了你?” 说实话,其实这个问题有点无厘头。 之所以这么…

机器学习基础相关问题

机器学习相关的基础问题 K-means是否一定会收敛 K-means是否一定会收敛 K-means算法在有限步数内一定会收敛,但收敛到的可能是局部最优解而非全局最优解。以下是详细分析: K-means 的优化目标是最小化 样本到其所归属簇中心的距离平方和(SSE…

验证负载均衡与弹性伸缩

什么是弹性伸缩(Auto Scaling)? 弹性伸缩是指 云计算平台根据实时负载自动调整计算资源(如服务器实例、容器Pod)数量,以确保系统在高峰时保持稳定,在低谷时节省成本。 什么时候会触发弹性伸缩&…

Three.js中AR实现详解并详细介绍基于图像标记模式AR生成的详细步骤

文档地址 Three.js中AR实现详解 以下是Three.js中实现AR功能的详细解析,涵盖技术原理、实现步骤、核心组件及优化策略: 🧩 一、技术基础 AR.js框架的核心作用 AR.js是Three.js实现AR的基石,提供以下核心能力: 多模…

GeoBoundaries下载行政区划边界数据(提供中国资源shapefile)

要下载山东省济南市各个区的行政区划边界数据,你可以通过 geoBoundaries 提供的数据来实现。下面是详细步骤,包括网页操作和可选的 Python 自动化方式。 目录 ✅ 一、通过 geoBoundaries 官网手动下载1. 打开官网:2. 查找中国数据&#xff1a…

大模型如何选型?嵌入模型如何选型?

欢迎来到啾啾的博客🐱。 记录学习点滴。分享工作思考和实用技巧,偶尔也分享一些杂谈💬。 有很多很多不足的地方,欢迎评论交流,感谢您的阅读和评论😄。 目录 引言模型优劣认知与模型选择大模型(L…

开源大模型网关:One API实现主流AI模型API的统一管理与分发

以下是对One API的简单介绍: One API是一个使用go语言开发的大语言模型 API 管理与分发系统支持Docker一键快速部署,且资源占用小,高性能开箱支持多平台大模型快速接入,包括OpenAI、Gemini、xAI、Grop、Anthropic Claude、Ollama…

智慧充电:新能源汽车智慧充电桩的发展前景受哪些因素影响?

全球能源结构转型与碳中和目标的推进,新能源汽车产业迎来爆发式增长,而智慧充电桩作为其核心基础设施,发展前景备受关注。智慧充电不仅关乎用户充电体验的优化,更是电网平衡、能源效率提升的关键环节。 然而,其发展并…

【网站建设】不同类型网站如何选择服务器?建站项目实战总结

做了几个建站项目后,深刻体会到一件事:不同类型的网站,所采用的服务器策略是完全不同的。 如果选错了服务器方案,可能带来过高的成本、过低的性能,甚至上线失败。 这篇文章分享一下我在实战中的经验,供正在做建站项目的朋友参考。 🚩 1️⃣ 纯展示型网站 —— 静态服务…