【数据挖掘】岭回归(Ridge Regression)和线性回归(Linear Regression)对比实验

news2025/7/18 23:20:11

这是一个非常实用的 岭回归(Ridge Regression)和线性回归(Linear Regression)对比实验,使用了 scikit-learn 中的 California Housing 数据集 来预测房价。


📦 第一步:导入必要的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import Ridge, Lasso, LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing as fch

🔹 Ridge, Lasso, LinearRegression:三种回归模型
🔹 fetch_california_housing:加载加州房价数据集
🔹 train_test_split:划分训练集和测试集
🔹 matplotlib.pyplot:画图


🏠 第二步:加载数据并观察

house_value = fch()
X = pd.DataFrame(house_value.data)
y = house_value.target
X.columns = ["住户收入中位数", "房屋使用年代中位数", "平均房间数目", "平均卧室数目", "街区人口", "平均入住率", "街区垢纬度", "街区的经度"]

Xtmp = X.copy()
Xtmp['价格'] = y
display(Xtmp)

✅ 将数据转换为 DataFrame 并设置列名,更方便分析。
display(Xtmp) 会在 Jupyter Notebook 中以表格形式展示数据。


✂️ 第三步:划分训练集和测试集

xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3, random_state=420)
for i in [xtrain, xtest]:
    i.index = range(i.shape[0])  # 重置索引,避免索引错乱

✅ 划分比例为 70% 训练 + 30% 测试
✅ 重置索引是个好习惯,有利于数据对齐


🧮 第四步:使用 Ridge 回归 进行建模和评估

reg = Ridge(alpha=5).fit(xtrain, ytrain)
r2_score = reg.score(xtest, ytest)
print("r2:%.8f" % r2_score)

🔹 这里用岭回归拟合训练集,使用 alpha=5 作为正则化系数。
🔹 reg.score() 返回的是 R²(决定系数),衡量模型拟合效果,越接近 1 越好。


🔁 第五步:不同 alpha 下 Ridge 与普通线性回归对比

from sklearn.model_selection import cross_val_score
alpha_range = np.arange(1, 1001, 100)
ridge, lr = [], []

for alpha in alpha_range:
    reg = Ridge(alpha=alpha)
    linear = LinearRegression()
    
    # 用交叉验证评估两种模型的平均 R²
    regs = cross_val_score(reg, X, y, cv=5, scoring='r2').mean()
    linears = cross_val_score(linear, X, y, cv=5, scoring='r2').mean()
    
    ridge.append(regs)
    lr.append(linears)

🔍 cross_val_score:使用 5 折交叉验证,平均 R² 得分

  • ridge.append():记录不同 alpha 下岭回归得分

  • lr.append():记录普通线性回归得分(其实是一个水平线)


📈 第六步:可视化 Ridge 与 Linear 回归对比结果

plt.plot(alpha_range, ridge, c='red', label='Ridge')
plt.plot(alpha_range, lr, c='orange', label='LR')
plt.title('Mean')
plt.legend()
plt.ylabel('R2')
plt.show()

✅ 横轴是 alpha,纵轴是交叉验证 R²
✅ 岭回归的性能随着 alpha 变化,线性回归是常数线
✅ 可以直观对比正则化对模型的影响


📌 总结这个实验做了什么?

步骤作用
加载数据得到特征和标签
建立模型使用岭回归拟合预测房价
模型评估输出 R² 指数
交叉验证比较岭回归与线性回归的表现随 alpha 变化的趋势
可视化看不同 alpha 对 Ridge 的影响,并与线性回归对比

✅ 建议拓展方向

可以继续做这些改进:

  1. 加入标准化(StandardScaler):防止特征量纲影响回归权重;

  2. 尝试 Lasso 回归:看看稀疏化是否会带来更优的模型;

  3. 绘制训练误差与测试误差对比图:分析是否过拟合;

  4. 使用 GridSearchCV 自动调参:找到最优 alpha。


以下是一个完整的房价预测回归分析代码,包含:

  • 岭回归(Ridge)

  • Lasso 回归

  • 普通线性回归

  • 标准化处理(StandardScaler

  • 网格搜索调参(GridSearchCV

  • 模型评分比较

  • 可视化对比


✅ 完整代码如下:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import Ridge, Lasso, LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score

# 1. 加载数据
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

# 2. 数据划分
xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. 特征标准化
scaler = StandardScaler()
xtrain_scaled = scaler.fit_transform(xtrain)
xtest_scaled = scaler.transform(xtest)

# 4. 定义回归模型
models = {
    "LinearRegression": LinearRegression(),
    "Ridge": Ridge(),
    "Lasso": Lasso()
}

# 5. 设置超参数搜索空间
param_grid = {
    "Ridge": {"alpha": np.logspace(-3, 3, 20)},
    "Lasso": {"alpha": np.logspace(-3, 3, 20)}
}

# 6. 模型训练与调参
best_models = {}
for name, model in models.items():
    if name in param_grid:
        print(f"正在搜索最优参数:{name}")
        grid = GridSearchCV(model, param_grid[name], cv=5, scoring="r2")
        grid.fit(xtrain_scaled, ytrain)
        best_models[name] = grid.best_estimator_
        print(f"{name} 最佳 alpha: {grid.best_params_['alpha']:.4f}")
    else:
        model.fit(xtrain_scaled, ytrain)
        best_models[name] = model

# 7. 模型评估
print("\n模型性能对比(R² 得分):")
for name, model in best_models.items():
    score = model.score(xtest_scaled, ytest)
    print(f"{name}: R² = {score:.4f}")

# 8. 可视化对比
r2_scores = [model.score(xtest_scaled, ytest) for model in best_models.values()]
model_names = list(best_models.keys())

plt.figure(figsize=(8, 5))
plt.bar(model_names, r2_scores, color=["orange", "red", "green"])
plt.ylabel("R²")
plt.title("不同回归模型性能对比")
for i, score in enumerate(r2_scores):
    plt.text(i, score + 0.01, f"{score:.4f}", ha='center')
plt.ylim(0, max(r2_scores) + 0.1)
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

📊 输出内容包括:

  • 每种模型的 R² 得分

  • Ridge 和 Lasso 的最佳 alpha(正则项系数)

  • 一张柱状图对比三种模型在测试集上的表现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2331001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CExercise_07_1指针和数组_1编写函数交换数组中两个下标的元素

题目: 要求编写函数将数组作为参数传递来实现: 1.编写函数交换数组中两个下标的元素。函数声明如下:void swap(int *arr, int i, int j) 。要求不使用[]运算符,将[]还原成解引用运算符和指针加法来完成。 关键点 通过指针交换数组…

塔能科技:智能路灯物联运维产业发展现状与趋势分析

随着智慧城市建设的推进,智能路灯物联运维产业正经历快速发展,市场规模持续扩大。文章探讨了智能路灯物联运维的技术体系、市场机遇和挑战,并预测了未来发展趋势,为行业发展提供参考。 关键词 智能路灯;物联运维&#…

ZW3D二次开发_普通对话框_设置对话框弹出位置

ZW3D的普通对话框可以在UI设计时静态地设置对话框弹出的位置,方法如下: 选中对话框的最顶级对象,即ZsCc::Form对象,在属性管理器中添加一个动态属性“form_pos”,类型为“StringList”,如下图所示 不同属性…

低代码开发「JNPF」应用场景

政务系统快速搭建 在数字化政务转型的浪潮下,JNPF 快速开发平台扮演着关键角色,为政府部门提供了高效且便捷的审批流程自动化解决方案。 以 “一网通办” 为例,通过平台的可视化拖拽式配置功能,政府工作人员能够将原本复杂繁琐的…

欧拉函数模板

1.欧拉函数模板 - 蓝桥云课 问题描述 这是一道模板题。 首先给出欧拉函数的定义:即 Φ(n) 表示的是小于等于 n 的数中和 n 互质的数的个数。 比如说 Φ(6)2,当 n 是质数的时候,显然有 Φ(n)n−1。 题目大意: 给定 n 个正整数…

屏幕空间反射SSR-笔记

屏幕空间反射SSR 相关文章: [OpenGL] 屏幕空间反射效果 Games202-RealTime GI in Screen Space github上的例子,使用visual studio2019 github例子对应的文章 使用OpenGL和C实现发光柱子的SSR倒影 下面是一个使用OpenGL和C实现屏幕空间反射(SSR)来创建…

动态规划算法深度解析:0-1背包问题(含完整流程)

简介: 0-1背包问题是经典的组合优化问题:给定一组物品(每个物品有重量和价值),在背包容量限制下选择物品装入背包,要求总价值最大化且每个物品不可重复选取。 动态规划核心思想 通过构建二维状态表dp[i]…

LeetCode刷题SQL笔记

系列博客目录 文章目录 系列博客目录1.distinct关键字 去除重复2.char_length()3.group by 与 count()连用4.date类型有个函数datediff()5.mod 函数6.join和left join的区别1. **JOIN(内连接,INNER JOIN)**示例: 2. **LEFT JOIN&a…

循环神经网络 - 参数学习之随时间反向传播算法

本文中,我们以同步的序列到序列模式为例来介绍循环神经网络的参数学习。 循环神经网络中存在一个递归调用的函数 𝑓(⋅),因此其计算参数梯度的方式和前馈神经网络不太相同。在循环神经网络中主要有两种计算梯度的方式:随时间反向…

球类(继承和多态)

父类Ball,设置为抽象类,调用get和set方法创建对象,将子类重写的功能函数抽象化。 // 抽象球类 abstract class Ball {private String name;private double radius; // 半径private double weight; // 重量private double price; // 价格// 构…

DFS和BFS的模版

dfs dfs金典例题理解就是走迷宫 P1605 迷宫 - 洛谷 dfs本质上在套一个模版&#xff1a; ///dfs #include<bits/stdc.h> using namespace std; int a[10][10]{0}; int m,n,t,ans0; int ex,ey; int v[10][10]{0}; int dx[4]{-1,0,1,0}; int dy[4]{0,1,0,-1}; void dfs(in…

Ansible Playbook 进阶探秘:Handlers、变量、循环及条件判断全解析

192.168.60.100ansible.com192.168.60.110 client-1.com 192.168.60.120client-2.com192.168.60.130client-1.com 一、Handlers 介绍&#xff1a;在发生改变时执行的操作(类似puppet通知机制) 示例&#xff1a; 当apache的配置文件发生改变时&#xff0c;apache服务才会重启…

MATLAB的24脉波整流器Simulink仿真与故障诊断

本博客来源于CSDN机器鱼&#xff0c;未同意任何人转载。 更多内容&#xff0c;欢迎点击本专栏目录&#xff0c;查看更多内容。 目录 0 引言 1 故障数据采集 2 故障特征提取 3 故障诊断分类 4 结语 本博客内容是在MATLAB2023下完成。 0 引言 对于电力电子电路的故障诊断…

linux第三次作业

1、将你的虚拟机的网卡模式设置为nat模式&#xff0c;给虚拟机网卡配置三个主机位分别为100、200、168的ip地址 2、测试你的虚拟机是否能够ping通网关和dns&#xff0c;如果不能请修改网关和dns的地址 3、将如下内容写入/etc/hosts文件中&#xff08;如果有多个ip地址则写多行&…

国标GB28181视频平台EasyCVR顺应智慧农业自动化趋势,打造大棚实时视频监控防线

一、方案背景 近年来&#xff0c;温室大棚种植技术凭借其显著的优势&#xff0c;在提升农作物产量和质量、丰富农产品供应方面发挥了重要的作用&#xff0c;极大改善了人们的生活水平&#xff0c;得到了广泛的推广和应用。大棚内的温度、湿度、光照度和二氧化碳浓度等环境因素…

HOOPS Visualize:跨平台、高性能的三维图形渲染技术解析

在当今数字化时代&#xff0c;三维可视化技术已成为众多行业的核心竞争力。HOOPS Visualize作为一款功能强大的三维图形渲染引擎&#xff0c;凭借其卓越的渲染能力、跨平台支持、丰富的交互功能、高度定制化以及快速部署等特性&#xff0c;为开发人员提供了构建高质量、高性能3…

蓝桥杯 C/C++ 组历届真题合集速刷(一)

一、1.单词分析 - 蓝桥云课 &#xff08;模拟、枚举&#xff09;算法代码&#xff1a; #include <bits/stdc.h> using namespace std;int main() {string s;cin>>s;unordered_map<char,int> mp;for(auto ch:s){mp[ch];}char result_charz;int max_count0;fo…

多类型医疗自助终端智能化升级路径(代码版.上)

大型医疗自助终端的智能化升级是医疗信息化发展的重要方向,其思维链一体化路径需要围绕技术架构、数据流协同、算法优化和用户体验展开: 一、技术架构层:分布式边缘计算与云端协同 以下针对技术架构层的分布式边缘计算与云端协同模块,提供具体编程实现方案: 一、边缘节点…

区间 DP 详解

文章目录 区间 DP分割型合并型环形合并 区间 DP 区间 DP&#xff0c;就是在对一段区间进行了若干次操作后的最小代价&#xff0c;一般是合并和拆分类型。 分割型 分割型&#xff0c;指把一个区间内的几项分开拆成一份一份的&#xff0c;再全部合起来就是当前答案&#xff0c…

QAM 信号的距离以及能量归一化

QAM星座图平均功率能量_星座图功率计算-CSDN博客 正交幅度调制(QAM) - Vinson88 - 博客园 不同阶QAM调制星座图中&#xff0c;符号能量的归一化计算原理_qpsk的星座图归一化-CSDN博客 https://zhuanlan.zhihu.com/p/690157236