【机器学习-线性回归-5】多元线性回归：概念、原理与实现详解

news2026/4/20 12:47:07

线性回归是机器学习中最基础且广泛应用的算法之一，而多元线性回归则是其重要扩展。本文将全面介绍多元线性回归的核心概念、数学原理及多种实现方式，帮助读者深入理解这一强大的预测工具。

1. 多元线性回归概述

1.1 什么是多元线性回归

多元线性回归(Multiple Linear Regression)是简单线性回归的扩展，用于建模**多个自变量(特征)与一个因变量(目标)**之间的线性关系。与简单线性回归(y = ax + b)不同，多元线性回归的模型可以表示为：

y = β₀ + β₁x₁ + β₂x₂ + … + βₚxₚ + ε

其中：

y：因变量(目标变量)
x₁, x₂,…, xₚ：自变量(特征)
β₀：截距项
β₁, β₂,…, βₚ：各自变量的系数
ε：误差项

1.2 应用场景

多元线性回归广泛应用于各个领域：

经济学：预测GDP增长基于多个经济指标
金融：评估股票价格与多种因素的关系
市场营销：分析广告投入在不同渠道的效果
医学：预测疾病风险基于多种生理指标

2. 数学原理与假设

2.1 模型假设

多元线性回归的有效性依赖于以下关键假设：

线性关系：自变量与因变量存在线性关系
无多重共线性：自变量之间不应高度相关
同方差性：误差项的方差应保持恒定
正态性：误差项应近似正态分布
无自相关：误差项之间不应相关
无测量误差：自变量应准确测量

2.2 参数估计：最小二乘法

多元线性回归通常采用**普通最小二乘法(OLS)**估计参数，目标是使残差平方和(RSS)最小化：

RSS = Σ(yᵢ - ŷᵢ)² = Σ(yᵢ - (β₀ + β₁x₁ + … + βₚxₚ))²

矩阵形式的解为：
β = (Xᵀ X)⁻¹ Xᵀ y

其中：

X：设计矩阵(包含所有特征)
y：目标向量
β：系数向量

2.3 模型评估指标

评估多元线性回归模型的常用指标：

R² (决定系数)：解释变量对目标变量的解释程度
- 范围：[0,1]，越接近1模型越好
- 公式：R² = 1 - RSS/TSS
调整R²：考虑特征数量的R²修正
- 公式：Adj-R² = 1 - [(1-R²)(n-1)/(n-p-1)]
均方误差(MSE)：预测值与真实值的平均平方差
- MSE = RSS/n
均方根误差(RMSE)：MSE的平方根，与目标变量同单位

3. 多元线性回归的实现

3.1 Python实现方式

3.1.1 使用NumPy手动实现

import numpy as np

class MultipleLinearRegression:
    def __init__(self):
        self.coefficients = None
        self.intercept = None
    
    def fit(self, X, y):
        # 添加截距项
        X = np.insert(X, 0, 1, axis=1)
        
        # 计算系数 (X'X)^-1 X'y
        X_transpose = np.transpose(X)
        X_transpose_X = np.dot(X_transpose, X)
        X_transpose_X_inv = np.linalg.inv(X_transpose_X)
        X_transpose_y = np.dot(X_transpose, y)
        coefficients = np.dot(X_transpose_X_inv, X_transpose_y)
        
        self.intercept = coefficients[0]
        self.coefficients = coefficients[1:]
    
    def predict(self, X):
        return self.intercept + np.dot(X, self.coefficients)

3.1.2 使用scikit-learn实现

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

# 示例数据准备
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 数据标准化(可选)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"MSE: {mse:.2f}, R2: {r2:.2f}")

3.2 特征工程与模型优化

3.2.1 特征选择

前向选择：从零特征开始，逐步添加最有统计意义的特征
后向消除：从全特征开始，逐步移除最无统计意义的特征
正则化方法：使用Lasso(L1)或Ridge(L2)回归自动进行特征选择

3.2.2 处理多重共线性

**方差膨胀因子(VIF)**检测：

from statsmodels.stats.outliers_influence import variance_inflation_factor

vif_data = pd.DataFrame()
vif_data["feature"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(len(X.columns))]
print(vif_data)

VIF > 5-10表示存在多重共线性问题

解决方案：
- 删除高相关特征
- 使用主成分分析(PCA)
- 应用正则化回归

3.2.3 正则化方法

岭回归(Ridge Regression)：

from sklearn.linear_model import Ridge
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)

Lasso回归：

from sklearn.linear_model import Lasso
lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)

弹性网络(ElasticNet)：

from sklearn.linear_model import ElasticNet
elastic = ElasticNet(alpha=0.1, l1_ratio=0.5)
elastic.fit(X_train, y_train)

4. 高级主题与注意事项

4.1 非线性关系的处理

当自变量与因变量存在非线性关系时，可以考虑：

添加多项式特征
使用样条回归
进行变量转换(如对数变换)

4.2 离群值检测与处理

离群值会显著影响回归结果，处理方法包括：

可视化检测(箱线图、散点图)
统计方法(Z-score、IQR)
稳健回归方法(RANSAC、Huber回归)

4.3 交互作用项

考虑特征间的交互作用：

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
X_interaction = poly.fit_transform(X)

5. 实战案例：房价预测

以下是一个完整的多元线性回归应用示例：

import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# 加载数据
data = fetch_california_housing()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['Target'] = data.target

# 数据探索
print(df.describe())
df.hist(figsize=(12, 10))
plt.tight_layout()
plt.show()

# 特征选择
X = df.drop('Target', axis=1)
y = df['Target']

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 创建并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 模型评估
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f"RMSE: {rmse:.4f}")
print(f"R2 Score: {r2:.4f}")

# 特征重要性
importance = pd.DataFrame({
    'Feature': data.feature_names,
    'Coefficient': model.coef_
}).sort_values('Coefficient', key=abs, ascending=False)

print("\n特征重要性:")
print(importance)

# 残差分析
residuals = y_test - y_pred
plt.figure(figsize=(10, 6))
plt.scatter(y_pred, residuals, alpha=0.5)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('Predicted Values')
plt.ylabel('Residuals')
plt.title('Residual Plot')
plt.show()