【漫话机器学习系列】237. TSS总平方和

news2025/7/20 11:06:13

深度理解 TSS(总平方和):公式、意义与应用

在机器学习与统计建模领域,评价模型好坏的重要指标之一就是方差误差分析。其中,TSS(Total Sum of Squares,总平方和)扮演着非常关键的角色。今天我们就来深入剖析 TSS,从公式理解到实际应用,一步步搞懂它!


什么是 TSS?

TSS(总平方和) 是指样本数据中各观测值与其均值之间差异的总和,具体来说,是每个观测值到整体均值的偏差的平方,再将这些平方累加起来。

TSS可以用来衡量数据的总体变异性,也就是说:原始数据本身波动有多大?


TSS的数学公式

根据本文开头的图示,TSS 的定义公式为:

TSS = \sum_{i=1}^n (y_i - \overline{y})^2

其中:

  • y_i:第 i 个样本的真实值(观测值)

  • \overline{y}:所有样本的平均值

  • n:样本总数

图中的标注也特别清晰:

  • y_i 真实值 ➔ 每一个观测的数据点。

  • \overline{y} 平均值 ➔ 所有观测点的均值,用于作为基准线。

这张图用简单的箭头标明了各元素的含义,非常友好。


为什么要平方?

也许你会好奇,为什么要对偏差进行平方呢?原因有两点:

  1. 避免正负抵消:如果不平方,正偏差和负偏差会互相抵消,导致总和接近零,失去意义。

  2. 强调大偏差:平方放大了大的误差,使得远离均值的点对 TSS 贡献更大。

因此,平方是必须的处理方式。


TSS的意义

TSS 衡量的是总体数据的分散程度。

  • 如果 TSS 很小,说明大部分数据点离均值很近,数据比较集中。

  • 如果 TSS 很大,说明数据点分布很散,离均值的距离很远。

在回归分析中,TSS 是衡量模型拟合优度(比如 R^2 决定系数)的基础部分。


与其他平方和的关系

在回归分析中,除了 TSS,还有两个重要的平方和:

  • RSS(残差平方和,Residual Sum of Squares):真实值与预测值之间的差异。

  • ESS(回归平方和,Explained Sum of Squares):预测值与真实均值之间的差异。

三者之间有着重要的关系:

TSS = ESS + RSS

这意味着,TSS 可以分解为模型解释的部分(ESS)和模型无法解释的残差部分(RSS)。

简而言之

  • TSS:原始数据的总波动。

  • ESS:模型能解释的数据波动。

  • RSS:模型不能解释的数据波动。


一个简单例子

假设我们有以下数据:

样本编号y_i
12
24
36

计算过程如下:

  1. 计算均值:\overline{y} = (2+4+6)/3 = 4

  2. 计算每个点与均值的差值并平方:

    • (2 - 4)^2 = 4

    • (4 - 4)^2 = 0

    • (6 - 4)^2 = 4

  3. 将平方和加总:

TSS = 4 + 0 + 4 = 8

因此,总平方和 TSS = 8。


TSS在实际中的应用

TSS 最常见的应用场景包括:

  • 评估回归模型的拟合优度:TSS 用于计算 R2R^2 值。

    R^2 = 1 - \frac{RSS}{TSS}

    R^2 越接近 1,说明模型越好。

  • 特征工程中筛选特征:分析某个特征是否能有效减少数据波动。

  • 聚类分析:衡量聚类效果,比如在 K-means 聚类中,也有类似的平方和概念。


总结

  • TSS 是理解数据变化范围的基础指标。

  • 平方和的分解公式 TSS = ESS + RSS 是理解回归分析的核心。

  • 掌握 TSS 有助于进一步深入理解 R²、模型评价、特征选择等机器学习技术。

记住,理解 TSS,就是理解数据本身的变化规律!


参考资料

  • Chris Albon 手绘笔记

  • 《统计学习方法》李航

  • 《An Introduction to Statistical Learning》


如果你觉得这篇讲解有帮助,欢迎点赞、评论、收藏!
后续我还会继续分享更多统计与机器学习基础知识系列,敬请期待!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2371744.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DeepSeek多尺度数据:无监督与原则性诊断方案全解析

DeepSeek 多尺度数据诊断方案的重要性 在当今的 IT 领域,数据如同石油,是驱动各类智能应用发展的核心资源。随着技术的飞速发展,数据的规模和复杂性呈爆炸式增长,多尺度数据处理成为了众多领域面临的关键挑战。以计算机视觉为例,在目标检测任务中,小目标可能只有几个像素…

Spring Framework 6:虚拟线程支持与性能增强

文章目录 引言一、虚拟线程支持:并发模型的革命二、AOT编译与原生镜像优化三、响应式编程与可观测性增强四、HTTP接口客户端与声明式HTTP五、性能比较与实际应用总结 引言 Spring Framework 6作为Spring生态系统的基础框架,随着Java 21的正式发布&#…

一场静悄悄的革命:AI大模型如何重构中国产业版图?

一场静悄悄的革命:AI大模型如何重构中国产业版图? 当ChatGPT在2022年掀起全球AI热潮时,很少有人意识到,这场技术变革正在中国产业界掀起更深层次的革命。在浙江宁波,一个纺织企业老板打开"产业链智能创新平台",30秒内就获得了原料采购、设备升级、海外拓客的全…

CentOS网络之network和NetworkManager深度解析

文章目录 CentOS网络之network和NetworkManager深度解析1. CentOS网络服务发展历史1.1 传统network阶段(CentOS 5-6)1.2 过渡期(CentOS 7)1.3 新时代(CentOS 8) 2. network和NetworkManager的核心区别3. ne…

当当狸智能天文望远镜 TW2 | 用科技触摸星辰,让探索触手可及

当科技邂逅星空,每个普通人都能成为宇宙的追光者 伽利略用望远镜揭开宇宙面纱的 400 年后,当当狸以颠覆传统的设计,让天文观测从专业领域走入千家万户。当当狸智能天文望远镜 TW2,重新定义「观星自由」—— 无需专业知识&#xff…

科学发现 | 源于生活的启示与突破计划的创新

注:本文为“科学发现”相关文章合辑。 略作重排,未全整理。 哪些重大科学发现,来自生活的启示 ︱ 科学史 2020/10/29 导读 好奇心是最好的向导和老师。 撰文 | 陈敬全(东华大学人文学院教授) 英国进化论者赫胥黎…

【ArcGIS微课1000例】0145:如何按照自定义形状裁剪数据框?

文章目录 一、添加数据二、绘制形状三、裁剪格网和经纬网一、添加数据 打开软件,添加配套实验数据包中0145.rar中的影像数据,如下图所示: 二、绘制形状 1. 在数据视图中,使用绘图 工具条上的新建圆工具 可创建一个椭圆,使其包含要在该数据框中显示的数据范围。 修改椭圆…

网络安全防火墙技术有哪些?网络防火墙的主要作用

网络安全防火墙技术有哪些?网络防火墙的主要作用 网络安全防火墙技术是保护网络免受未经授权访问和攻击的关键工具。以下是常见的防火墙技术及其主要作用: 一、网络安全防火墙技术分类 包过滤防火墙(Packet Filtering Firewall) 原理&#x…

数据集-目标检测系列- 印度人脸 检测数据集 indian face >> DataBall

数据集-目标检测系列- 印度人脸 检测数据集 indian face >> DataBall DataBall 助力快速掌握数据集的信息和使用方式。 贵在坚持! * 相关项目 1)数据集可视化项目:gitcode: https://gitcode.com/DataBall/DataBall-detections-100s…

Sass @import rules are deprecated and will be removed in Dart Sass 3.0.0.

版本: 原因 在 Dart Sass 3.0.0 中, @import 规则将被弃用,推荐使用 @use 和 @forward 规则来替代。 1.@use替代@import @use 规则允许你引入其他 Sass 文件中的变量、混合器和函数,并且可以避免命名冲突。 示例: style.scss @use variables;body {color: variables.$pr…

【工具教程】批量提取PDF指定内容并重命名,PDF文档根据指定识别文字改名,基于java的实现方案

物流单据处理​​:每天处理大量发货单PDF,提取订单编号、发货方信息等关键字段重命名文件 合同管理​​:从合同PDF中提取合同编号、签署方名称等作为文件名 ​​学术论文整理​​:根据论文标题或作者信息重命名PDF文件 财务票据…

苍穹外卖(用户下单、订单支付)

用户下单、订单支付 导入地址簿功能代码 接口设计 数据库设计(address_book表) 代码导入 功能测试 用户下单 接口设计 数据库设计 订单表 orders 订单明细表 order_detail 代码开发 根据用户下单接口的参数设计DTO 根据用户下单接口的…

【PostgreSQL数据分析实战:从数据清洗到可视化全流程】3.2 缺失值检测与处理(NULL值填充/删除策略)

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 缺失值检测与处理全攻略:NULL值填充与删除策略实战3.2 缺失值检测与处理3.2.1 缺失值类型与业务影响3.2.1.1 缺失值的三种形态3.2.1.2 业务影响分级 3.2.2 缺失值…

2025年渗透测试面试题总结-某步在线面试(题目+回答)

网络安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 一、操作系统相关问题总结与分析及扩展回答 1. Linux命令熟悉度 2. 查看进程的命令 3. 查看网络进程…

Java后端程序员学习前端之JavaScript

1.什么是JavaScript 1.1.概述 JavaScript是一门世界上最流行的脚本语言javaScript 一个合格的后端人员&#xff0c;必须要精通JavaScript 1.2.历史 JavaScript的起源故事-CSDN博客 2.快速入门 2.1.引入JavaScript 1.内部标签 <script>//.......</script> --…

uniapp-商城-43-shop 后台管理 页面

后台管理较为简单&#xff0c;主要用于后台数据的管理&#xff0c;包含商品类别和商品信息&#xff0c;其实还可以扩展到管理用户等等 1、后台首页 包含 分类管理 商品管理 关于商家等几个栏目 主要代码&#xff1a; <template><view class"manage">…

vue2 结合后端预览pdf 跨域的话就得需要后端来返回 然后前端呈现

<el-button :loading"pdfIslock" v-if"isPDFFile(form.pic)" type"primary" style"margin: 15px 0" click"previewPDF(form.pic)"> 预览pdf </el-button>//npm install pdfjs-dist //如果没有就得先安装import …

什么是 HSQLDB?

大家好&#xff0c;这里是架构资源栈&#xff01;点击上方关注&#xff0c;添加“星标”&#xff0c;一起学习大厂前沿架构&#xff01; Java开发人员学习Java数据库连接&#xff08;JDBC&#xff09;的最简单方法是试验HyperSQL数据库&#xff08;又名HSQLDB&#xff09;。 …

多语言爬虫实现网站价格监控

最近突发奇想想用多种代码来爬取数据做价格监控。常见的比如Python、JavaScript(Node.js)、或者Go&#xff1f;不过通常来说&#xff0c;Python应该是首选&#xff0c;因为它的库比较丰富&#xff0c;比如requests和BeautifulSoup&#xff0c;或者Scrapy。不过客户要求多种代码…

16.Three.js 中的 RectAreaLight 全面详解 + Vue 3 实战案例

&#x1f60e; 本文将带你从零了解 THREE.RectAreaLight 的工作原理、使用方式、注意事项&#xff0c;并在最后用 Vue 3 的 Composition API 封装一个完整的光源演示组件&#xff0c;一站式搞懂矩形区域光的魅力 &#x1f4a1;&#xff01; &#x1f5bc;️ 一、展示图效果示意…