线性回归与随机梯度下降(SGD)的Python实现

news2026/4/27 5:37:59

1. 线性回归与随机梯度下降基础解析线性回归是机器学习领域最基础且应用最广泛的算法之一。它的核心思想是通过线性组合输入特征来预测连续型输出值。在实际应用中我们经常会遇到需要从零开始实现算法的情况这不仅有助于深入理解算法原理也能为后续更复杂模型的实现打下坚实基础。1.1 线性回归数学模型线性回归模型的数学表达式为 y b₀ b₁x₁ b₂x₂ ... bₙxₙ其中y 是预测值因变量b₀ 是截距项偏置b₁到bₙ是各个特征的系数权重x₁到xₙ是输入特征自变量这个看似简单的公式实际上构成了许多复杂模型的基础组件。在Python中实现时我们需要特别关注系数的高效计算和更新方式。1.2 随机梯度下降原理随机梯度下降(Stochastic Gradient Descent, SGD)是优化线性回归系数的核心方法。与传统的梯度下降不同SGD每次只使用一个训练样本来更新参数这带来了几个显著优势计算效率高特别适合大规模数据集在线学习能力可以实时处理新到达的数据逃离局部最优随机性有助于跳出局部最小值参数更新公式为 bᵢ bᵢ - η*(ŷ - y)*xᵢ其中η是学习率控制每次更新的步长。选择合适的学习率至关重要——过大会导致震荡过小则收敛缓慢。2. 从零实现线性回归2.1 预测函数实现我们先实现核心的预测函数这是整个模型的基础def predict(row, coefficients): yhat coefficients[0] # 截距项 for i in range(len(row)-1): yhat coefficients[i 1] * row[i] return yhat这个函数接收一行数据和当前系数返回预测值。注意系数数组的第一个元素始终是截距项b₀它不与任何特定特征相乘。提示在实际项目中可以考虑使用NumPy的向量化运算来优化这个计算过程特别是当特征维度很高时。2.2 系数更新实现接下来实现SGD的核心部分——系数更新def coefficients_sgd(train, l_rate, n_epoch): coef [0.0 for _ in range(len(train[0]))] # 初始化系数 for epoch in range(n_epoch): sum_error 0 for row in train: yhat predict(row, coef) error yhat - row[-1] # 计算误差 sum_error error**2 # 累计平方误差 # 更新截距项 coef[0] coef[0] - l_rate * error # 更新特征系数 for i in range(len(row)-1): coef[i 1] coef[i 1] - l_rate * error * row[i] print(fEpoch {epoch}, lrate {l_rate}, error {sum_error}) return coef这个实现有几个关键点值得注意系数初始化为0实践中也可以使用小随机数每个epoch会完整遍历整个训练集对每个样本都会立即更新系数记录了每个epoch的总平方误差用于监控训练过程3. 葡萄酒质量预测实战3.1 数据准备与预处理葡萄酒质量数据集包含4898个样本每个样本有11个化学特征和1个质量评分。我们需要先进行数据预处理def load_csv(filename): dataset [] with open(filename, r) as file: csv_reader reader(file) for row in csv_reader: if not row: continue dataset.append(row) return dataset def normalize_dataset(dataset): minmax [[min(col), max(col)] for col in zip(*dataset)] for row in dataset: for i in range(len(row)): row[i] (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0]) return dataset数据标准化的步骤至关重要它将所有特征缩放到[0,1]范围避免某些特征因尺度较大而主导模型训练。3.2 交叉验证实现我们使用5折交叉验证来评估模型性能def cross_validation_split(dataset, n_folds): dataset_split [] dataset_copy list(dataset) fold_size len(dataset) // n_folds for _ in range(n_folds): fold [] while len(fold) fold_size: index randrange(len(dataset_copy)) fold.append(dataset_copy.pop(index)) dataset_split.append(fold) return dataset_split交叉验证能更可靠地评估模型性能特别是对于中小规模数据集。我们使用RMSE均方根误差作为评估指标def rmse_metric(actual, predicted): sum_error sum((p - a)**2 for p, a in zip(predicted, actual)) return (sum_error / len(actual))**0.53.3 完整训练流程将各个组件组合起来形成完整训练流程def linear_regression_sgd(train, test, l_rate, n_epoch): coef coefficients_sgd(train, l_rate, n_epoch) predictions [predict(row, coef) for row in test] return predictions # 主程序 seed(1) dataset load_csv(winequality-white.csv) dataset [[float(x) for x in row] for row in dataset] normalize_dataset(dataset) n_folds 5 l_rate 0.01 n_epoch 50 scores evaluate_algorithm(dataset, linear_regression_sgd, n_folds, l_rate, n_epoch) print(Mean RMSE:, sum(scores)/len(scores))4. 调优与问题排查4.1 超参数调优经验在实际应用中我们发现几个关键调优点学习率选择常用范围在0.0001到0.1之间可以尝试学习率衰减策略如η η₀/(1kt)训练轮数监控验证集误差当误差不再明显下降时停止通常需要50-1000轮取决于数据复杂度特征工程添加多项式特征可以捕捉非线性关系特征选择能提高模型泛化能力4.2 常见问题与解决方案模型不收敛检查学习率是否过大确认数据是否已标准化验证梯度计算是否正确过拟合增加L2正则化岭回归使用早停策略减少特征数量训练速度慢实现mini-batch SGD使用向量化运算考虑并行化4.3 性能优化技巧经过多次实践我总结了几个提升实现效率的技巧向量化实现# 向量化预测函数示例 def predict_vectorized(X, coef): return X coef[1:] coef[0]使用生成器处理大数据def batch_generator(data, batch_size): for i in range(0, len(data), batch_size): yield data[i:ibatch_size]缓存机制对于重复访问的数据可以缓存预处理结果5. 算法扩展与改进5.1 批量梯度下降实现除了SGD还可以实现批量梯度下降def coefficients_bgd(train, l_rate, n_epoch, batch_size): coef [0.0] * len(train[0]) for epoch in range(n_epoch): for batch in batch_generator(train, batch_size): gradients [0.0] * len(coef) for row in batch: error predict(row, coef) - row[-1] gradients[0] error # 截距项梯度 for i in range(len(row)-1): gradients[i1] error * row[i] # 批量更新 coef [c - l_rate * g/len(batch) for c, g in zip(coef, gradients)] return coef5.2 正则化线性回归为了防止过拟合可以添加L2正则化def coefficients_sgd_l2(train, l_rate, n_epoch, lambda_): coef [0.0] * len(train[0]) for _ in range(n_epoch): for row in train: yhat predict(row, coef) error yhat - row[-1] # 更新截距项(不应用正则化) coef[0] coef[0] - l_rate * error # 更新特征系数(应用L2正则化) for i in range(len(row)-1): coef[i1] coef[i1] - l_rate * (error * row[i] lambda_ * coef[i1]) return coef5.3 其他回归数据集实践这套实现可以轻松扩展到其他回归问题波士顿房价预测糖尿病进展预测股票价格预测关键是要根据具体问题调整数据预处理方式特征工程策略模型评估指标在实现这些算法时我深刻体会到魔鬼在细节中的道理。一个看似简单的线性回归要获得好的预测效果需要注意数据预处理的每个环节仔细调校每个超参数并且要充分理解算法背后的数学原理。这也许就是机器学习既充满挑战又令人着迷的原因。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2544836.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！