【机器学习】拟合优度度量和梯度下降(红酒数据集的线性回归模型sklearnRidge)

news2025/8/8 17:11:40

文章目录

  • 一.拟合优度度量(可决系数)
    • 1.1总离差平方和的分解
    • 1.2 TSS=ESS+RSS
    • 1.3 红酒数据集实例R2_score实现代码
  • 二. 梯度下降
    • 2.1 损失函数直观图(单特征/变量举例)
    • 2.2 梯度下降和正规方程的区别
    • 2.3 线性回归模型——梯度下降 (红酒数据集)
    • 2.4 sklearn线性回归正规方程与梯度下降API
    • 2.5 岭回归
    • 2.6 Ridge Regression
    • 2.7 岭迹图

一.拟合优度度量(可决系数)

拟合度指回归直线与样本数据趋势的吻合程度。

拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验,。
度量拟合优度的指标:可决系数(判定系数) R*2

1.1总离差平方和的分解

已知由一组样本观测值(Xi,Yi),i=l,2…,n 得到如下样本回归直线:

image-20221109094415974

而Y的第i个观测值与样本均值的离差image-20221109094455637可分解为两部分之和

image-20221109094505192

image-20221109094516480

image-20221109094535412是样本回归拟合值与观测值的平均值之差,可认为是由回归直线解释的部分。

image-20221109094602836是实际观测值与回归拟合值之差,是回归直线不能解释的部分。

如果image-20221109094657515即实际观测值落在样本回归"线"上,则拟合最好。
可认为,"离差"全部来自回归线,而与"残差"无关。

对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:

image-20221109095058304

1.2 TSS=ESS+RSS

Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。

在给定样本中,TSS不变,如果实际观测点离样本回归线越近, 则ESS在TSS中占的比重越大, 因此拟合优度:回归平方和ESS/Y的总离差TSS

1.3 红酒数据集实例R2_score实现代码

SSE是残差平方和,SST是总利差平方和
R2通俗地理解为使用均值作为误差基准,看预测误差是否大于或者小于均值基准误差。
R2_score = 1,样本中预测值和真实值完全相等,没有任何误差,表示回归分析中自变量对因变量的解释越好。
R2_score = 0。此时分子等于分母,样本的每项预测值都等于均值。
根据公式,我们可以写出R2_score实现代码

1.事前准备,使用红酒数据集:

from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target

2.切分数据集:使用前百分之30。

wine_X_train, wine_X_test, wine_y_train, wine_y_test = train_test_split(X, y, test_size=0.3, random_state=0)

3.每个测试集的所预测的各个类别的概率

y_predict=model.predict(wine_X_test)

4.保存

train_score,test_score=[],[]
train_score.append(model.score(wine_X_train, wine_y_train))
test_score.append(model.score(wine_X_test, wine_y_test))

5.引入R2_score

from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error

6.结果如下

print("train_score:",train_score)
print("test_score:",test_score)
print("R_squraed",r2_score(wine_y_test,y_predict))
print("均方误差为",mean_squared_error(wine_y_test,y_predict))
print("平均绝对误差",mean_absolute_error(wine_y_test,y_predict))

image-20221111095100861

二. 梯度下降

2.1 损失函数直观图(单特征/变量举例)

image-20221111085051338

image-20221111084828125

2.2 梯度下降和正规方程的区别

image-20221111085012318

2.3 线性回归模型——梯度下降 (红酒数据集)

1.事前准备,使用红酒数据集:

from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target

2.手动进行按列归一化:

wind_X=X.copy()

for i in range(13):
    columu_X = X[:, i]
    wind_X[:, i]=(columu_X-columu_X.mean())/columu_X.std()

3.切分数据集,取前百分之30。

wine_X_train, wine_X_test, wine_y_train, wine_y_test = train_test_split(wind_X, y, test_size=0.3, random_state=0)

4.随机梯度模型:SGDRegressor

model = linear_model.SGDRegressor()

5.输出测试集和训练集分数:

model.fit(wine_X_train,wine_y_train)
print("training score: ", model.score(wine_X_train,wine_y_train))
print("test score: ", model.score(wine_X_test,wine_y_test))

6.结果如下:

image-20221111100139130

2.4 sklearn线性回归正规方程与梯度下降API

1.sklearn.linear_model.LinearRearession()

  • 普通最小二乘线性回归

  • 正规方程

  • coef:回归系数

2.linear_model.SGDRegressor()

  • 通过使用SGD最小化线性模型

  • 梯度下降

  • coef:回归系数

2.5 岭回归

岭回归(Ridge Regression)是种改良的最小二乘法,其通过放弃最小二乘法的无偏性,以损失部分信息为代价来寻找效果稍差但回归系数更符合实际情况的模型方程该模型求解的回归模型的损失函数为线性最小二乘函数,正则化采用L2-范数。称为岭回归。

岭回归(Ridge Regression)与套索回归(Lasso Regression)两个算法不是为了提升模型表现,而是为了修复漏洞而设计的。

1.使用岭回归:

model = linear_model.Ridge()

2.上面代码模型使用岭回归之后,重新运行:

from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target


wine_X_train, wine_X_test, wine_y_train, wine_y_test = train_test_split(X, y, test_size=0.3, random_state=0)
model = linear_model.Ridge()
# model = linear_model.Lasso(alpha=0.1)
train_score,test_score=[],[]
model.fit(wine_X_train,wine_y_train)
from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error
y_predict=model.predict(wine_X_test)
train_score.append(model.score(wine_X_train, wine_y_train))
test_score.append(model.score(wine_X_test, wine_y_test))

print("train_score:",train_score)
print("test_score:",test_score)
print("R_squraed",r2_score(wine_y_test,y_predict))
print("均方误差为",mean_squared_error(wine_y_test,y_predict))
print("平均绝对误差",mean_absolute_error(wine_y_test,y_predict))

3.得到以下结果:

image-20221111100620886

2.6 Ridge Regression

正则化项是参数的L2范数时,回归方法就叫做岭回归。因为权重系数随lambda变化呈山脊状,等于零时为最小二乘。相应损失函数:

image-20221116092211338

2.7 岭迹图

引入依赖包:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

数据处理

def ridgeCalc(dataSet):
    xMat = np.mat(dataSet.iloc[:, :-1].values)
    yMat = np.mat(dataSet.iloc[:, -1].values).T
    yMean = np.mean(yMat, axis = 0)
    yMat = yMat - yMean
    xMeans = np.mean(xMat, axis = 0)
    xVar = np.var(xMat,axis = 0)
    xMat = (xMat - xMeans)/xVar
    numTestPts = 30
    wMat = np.zeros((numTestPts,xMat.shape[1]))
    for i in range(numTestPts):
        ws = ridgeRegres(dataSet, np.exp(i-10))
        wMat[i,:]=ws.T
    return wMat

手动计算岭回归:

def ridgeRegres(dataSet, lam=0.2):
    xMat = np.mat(dataSet.iloc[:, :-1].values)
    yMat = np.mat(dataSet.iloc[:, -1].values).T
    xTx = xMat.T * xMat
    denom = xTx + np.eye(xMat.shape[1])*lam
    ws = denom.I * (xMat.T * yMat)
    return ws

将其进行可视化输出:

ridgeWeights = ridgeCalc(df)
plt.plot(ridgeWeights)
plt.xlabel('log(lambda)')
plt.ylabel('weights')
plt.show()

本次程序运行截图,岭回归:

image-20221116092253716

image-20221116100720927

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/34281.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

天宇优配|混动车将告别上海免费绿牌 新能源多种技术路

现在订车还来得及吗?这是上海购置混动新能源车群体当下最关怀的问题。根据方针要求,上海关于混动车的免费绿牌支持将于本年年底结束。这意味着,再过一个多月,在上海购买插电式混合动力(含增程式)轿车将依照…

同事问我为什么上级喊他把js实现改成css

文章目录页面绘制流程CSS3动画优点缺点JS动画优点缺点总结本人不是专门写前端的,所以可能有不合理的地方,建议您多搜几篇博客看一下。页面绘制流程 渲染流程主要有4个步骤 解析 HTML 生成DOM 树解析 CSS 样式生成 CSSOM 树,CSSOM 树与 DOM …

Verilog 条件语句

link 我用的是 vivado 21 秒学会 vivado 仿真 关键词:if,选择器 条件语句 条件(if)语句用于控制执行语句要根据条件判断来确定是否执行。 条件语句用关键字 if 和 else 来声明,条件表达式必须在圆括号中。 条件语句使…

【网络篇】第十六篇——再谈端口号

再谈端口号 端口号范围划分 认识知名端口号 两个问题 netstat pidof 再谈端口号 端口号(Port)标识了一个主机上进行通信的不同的应用程序; 从网络中获取的数据在进行向上交付时,在传输层就会提取出该数据对应的目的端口号,进而确定该数据…

159-170-Hadoop-调优-hdfs-yran-综合

159-Hadoop-调优-hdfs故障排查: HDFS**—故障排除**(此处了解,一般使用HA) NameNode 故障处理 1)需求: NameNode 进程挂了并且存储的数据也丢失了,如何恢复 NameNode 2)故障模拟…

42、集合的第一大类:List

一、基本介绍: 1、List接口和常用方法 (1)List接口基本介绍: List接口是Collection接口的子接口 1)List集合类中元素有序(即添加顺序和取出顺序一致),且可重复 2)Li…

第五章TCP/IP 我们网络在我们身边

个人简介:云计算网络运维专业人员,了解运维知识,掌握TCP/IP协议,每天分享网络运维知识与技能。个人爱好: 编程,打篮球,计算机知识个人名言:海不辞水,故能成其大;山不辞石…

GOT Online For Unreal | 支持GPU Counter、DrawCall和Triangle、功率

UWA GOT Online For Unreal 新功能上线,马上分享: 在GOT Online - Overview模式中,新增了GPU Counter、DrawCall、Triangle和功率数据采集等,同时也对新增了便于报告上传和查看的API接口,以便开发者在查看报告时可以更…

计算机组成原理4小时速成:存储器容量扩展:位扩展,字扩展,存储器与cpu链接,地址线,数据线,片选线,控制线,汉明码编码,奇偶校验

计算机组成原理4小时速成:存储器容量扩展:位扩展,字扩展,存储器与cpu链接,地址线,数据线,片选线,控制线,汉明码编码,奇偶校验 2022找工作是学历、能力和运气…

[附源码]java毕业设计游戏装备交易网站论文2022

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

项目管理中,如何应对需求蔓延?

项目管理中,需求蔓延几乎难以避免,控制不好所产生的后果不言而喻,轻则增加工作量,造成项目延期;重则导致方案不完善,导致交付质量难以保证,使项目失败,因此我们要做好充分的准备。 …

硬盘分区管理软件,硬盘分区软件哪个好用

磁盘分区是很高频的磁盘管理方式,但是,很多的用户又不知道磁盘分区,只能借助于专业的磁盘分区大师。那么,在本文中,易我小编将讲解磁盘分区的知识,并且为大家介绍一款超实用的硬盘分区管理软件。 一、电脑磁…

基于fastai 1.0.61的SSD目标检测算法 代码详解 (一)

基于fastai的目标检测算法,主要是2018年course ① 2018 coursev2 : https://nbviewer.org/github/fastai/fastai1/tree/master/courses/ pascal.ipynb pacal_multi.ipynb SSD② jav fastai1.x SSD 没有mAP: https://github/jav0927/course-v3/blob/…

41、集合

一、基本介绍: 1、引入: (1)前面我们保存多个数据使用的是数组,但数组不足的地方有: 1)长度开始时必须指定,而且一旦指定,不能更改 2)保存的必须为同一类…

最新uniApp微信小程序获取头像open-type=“chooseAvatar“ @chooseavatar方法

小程序用户头像昵称获取规则调整公告 调整说明 自 2022 年 10 月 25 日 24 时后(以下统称 “生效期” ),用户头像昵称获取规则将进行如下调整: 自生效期起,小程序 wx.getUserProfile 接口将被收回:生效期…

maven学习:继承与聚合

4.1继承 ​ 做面向对象编程的人都会觉得这是一个没意义的问题,是的,继承就是避免重复,maven的继承也是这样,它还有一个好处就是让项目更加安全. 我们在项目开发的过程中,可能多个模块独立开发,但是多个模块…

【面试宝典】Java八股文之Redis面试题

Redis面试题1、什么是 Redis?2、Redis 与其他 key-value 存储有什么不同?3、Redis 的数据类型?4、使用 Redis 有哪些好处?5、Redis 相比 Memcached 有哪些优势?6、Memcache 与 Redis 的区别都有哪些?7、Redis 是单进程单线程的?8、一个字符串类型的值能存储最大容量是多…

利用FME读取Word中的表格

利用FME的MSWordStyler转换器和Word写模块,我们可以将一些简单的文本和表格写出到Word文档格式中,转换器和写模块截图如下: 图1 MSWordStyler转换器 图2 Word写模块 FME目前还没有Word读模块可以直接读取和解析Word格式,今天我们给…

java基本语法 上

目录 关键字与保留字 关键字(keyword)的定义和特点 保留字 标识符 Java中的名称命名规范 变量 变量的定义 变量的分类 整数类型:byte、short、int、long 浮点类型:float、double 字符类型:char 布尔类型:boolean 字符…

【亲测】网址引导页管理系统

介绍: 易航网址引导系统-网址引导页管理系统去授权版一款极其优雅的易航网址引导页管理系统, 如果有问题可以跟我反馈,共同进步。祝各位道友一路飞升,顶峰相见!内置12套模板和防墙插件。 项目亮点: 1、…