从岭回归到Lasso：正则化原理、稀疏性与ADMM算法实践

news2026/5/24 20:03:55

1. 项目概述从岭回归到Lasso的深度解析在机器学习和统计建模的实践中我们常常面临一个核心矛盾模型在训练数据上表现优异但在未见过的数据上却一塌糊涂这就是所谓的“过拟合”。想象一下你为了记住一本教科书上的所有例题甚至背下了每个标点符号的位置但面对一道全新的、只是换了几个数字的题目时却无从下手。过拟合的模型就像这个死记硬背的学生它完美地“复刻”了训练数据中的噪声和偶然性却丧失了抓住问题本质规律的能力。正则化技术正是解决这一矛盾的一剂良方它通过在模型训练的目标函数中引入一个额外的“惩罚项”来约束模型的复杂度引导模型去学习更通用、更稳健的规律。在众多正则化方法中岭回归Ridge Regression和LassoLeast Absolute Shrinkage and Selection Operator是两座基石。它们看似只是在惩罚项上从平方L2范数换成了绝对值L1范数但其背后的数学机理和实际效果却有着天壤之别。岭回归像一个温和的调解者它通过给所有特征的系数一个轻微的“收缩”来稳定模型特别擅长处理那些特征之间高度相关、导致普通最小二乘法解不稳定的“病态”问题。而Lasso则更像一个果断的决策者它不仅收缩系数还会将许多不重要的特征系数直接压缩为零从而实现自动化的特征选择让模型变得简洁、可解释。本文将带你深入这两个方法的数学核心。我们将从岭回归的约束与惩罚形式的等价性证明开始理解正则化如何通过拉格朗日乘子法与KKT条件将带边界的问题转化为可求解的优化问题。然后我们将重点剖析Lasso揭示其产生稀疏解即许多系数恰好为零的数学本质并详细探讨用于求解Lasso的主流优化算法——交替方向乘子法ADMM的每一步迭代逻辑。无论你是希望夯实理论基础的数据科学学生还是正在为高维数据特征选择而头疼的从业者这篇文章都将为你提供从原理到实操的完整视角。2. 岭回归约束与惩罚的等价性及其数学证明2.1 岭回归的基本形式与问题重构岭回归最直观的理解是在普通最小二乘法的损失函数上增加一个对模型参数β的L2范数平方的惩罚项。假设我们有N个样本每个样本有d个特征响应变量为标量y。用矩阵表示设计矩阵为XN行d1列第一列通常为全1以包含截距项响应向量为Y。普通最小二乘的目标是最小化残差平方和 ||Y - Xβ||²。岭回归在此基础上引入惩罚项其目标函数为F(β) ||Y - Xβ||² λ βᵀΔβ其中λ ≥ 0是调节惩罚强度的超参数Δ是一个对称半正定矩阵通常取单位矩阵I此时惩罚项为λ||β||²但不包含截距项β₀或经过设计的矩阵以对不同特征施加不同惩罚。然而岭回归还有另一种等价的表述方式带约束的优化问题。即在满足参数β的L2范数平方不超过某个常数C的条件下最小化残差平方和最小化||Y - Xβ||²约束条件βᵀΔβ ≤ C这两种表述——“惩罚形式”和“约束形式”——在数学上是完全等价的。这意味着对于每一个惩罚系数λ都存在一个约束边界C使得两个问题的解完全相同反之亦然。理解这种等价性是深入掌握正则化思想的关键。2.2 从KKT条件到等价性证明为什么这两种形式是等价的这需要用到凸优化中的核心工具——KKTKarush-Kuhn-Tucker条件。对于约束形式的问题我们可以构造拉格朗日函数L(β, μ) ||Y - Xβ||² μ (βᵀΔβ - C)其中μ ≥ 0是拉格朗日乘子。根据KKT条件最优解β*必须满足平稳性条件∇β L(β*, μ*) 0。原始可行性βᵀΔβ≤ C。对偶可行性μ* ≥ 0。互补松弛条件μ* (βᵀΔβ- C) 0。让我们聚焦于平稳性条件。对拉格朗日函数求关于β的梯度并令其为零-2Xᵀ(Y - Xβ*) 2μ* Δβ* 0整理后得到(XᵀX μ* Δ) β* XᵀY这个形式是不是非常眼熟对比惩罚形式岭回归的解β_λ (XᵀX λ Δ)⁻¹ XᵀY。两者在形式上完全一致只是将惩罚形式的λ替换成了约束形式的拉格朗日乘子μ*。互补松弛条件则揭示了λ与C的关系。如果约束是严格的即βᵀΔβ C那么根据互补松弛条件必须有μ* 0。此时约束形式的解退化为普通最小二乘解对应惩罚形式中的λ 0。如果约束是活跃的即βᵀΔβ C那么μ* 0。此时μ*的值就唯一地由C决定并且它恰好扮演了惩罚形式中λ的角色。注意这里有一个关键的实操细节。在推导中我们默认Δ是对称正定或至少半正定的以确保(XᵀX λΔ)可逆这也是岭回归能解决XᵀX奇异或病态问题的根本原因。在实际应用中Δ常取为单位矩阵但也可以根据先验知识进行设计例如对某些特征施加更强的惩罚。2.3 等价性的严格数学表述与几何解释更一般地我们可以将这个问题抽象为两类优化问题的等价性家族。考虑一个通用的目标函数U(β)例如残差平方和和一个惩罚函数φ(β)例如参数的范数。惩罚问题 var(λ)最小化U(β) λ φ(β) λ ≥ 0。约束问题 var(C)最小化U(β) 约束条件为φ(β) ≤ C C inf(φ)。在U和φ满足一定正则性条件如连续性、凸性且当β→∞时φ(β)→∞的前提下可以证明这两个问题族是等价的。其核心结论是函数λ ↦ φ(β_λ)是单调不增的且当λ→∞时φ(β_λ)趋近于其下确界而函数λ ↦ U(β_λ)是单调不减的。这意味着增大惩罚系数λ等价于收紧约束边界C迫使模型参数φ(β)变小但同时会以增加损失U(β)为代价。从几何视角看这非常直观。在参数空间中约束φ(β) ≤ C定义了一个区域例如L2球体。我们的目标是在这个区域内找到一个点使得它到“理想点”无约束下的最小二乘解的“距离”U(β)最小。这个最优解必然落在区域的边界上如果无约束解在区域外或者就是无约束解本身如果它在区域内。惩罚形式则像是在目标地形U(β)上叠加了一个以原点为中心、陡峭程度由λ控制的山丘λφ(β)。寻找山谷的最低点这个点同样会受到“山丘”的推挤向原点方向移动。调整λ和调整C最终都能让最优解落在参数空间的同一个位置上。实操心得理解这种等价性对调参至关重要。在网格搜索寻找最优λ时你实际上是在探索一簇不同“紧度”的约束边界。一个实用的技巧是可以先对数据做标准化然后观察不同λ下系数β的路径图。当所有系数都收缩到接近零时对应的λ值就近似给出了一个最大的有效C值βᵀβ ≈ C。这可以帮助你设定一个合理的参数搜索范围。3. Lasso回归稀疏性产生的机理与最优性条件3.1 Lasso的问题定义与稀疏性诱惑Lasso将岭回归的L2惩罚项替换为L1惩罚项其目标函数为最小化||Y - Xβ||² λ ||β||₁其中||β||₁ Σ|βᵢ|是系数的L1范数即绝对值之和。这一个小小的改动带来了革命性的不同稀疏性。所谓稀疏解是指求得的参数向量β中有相当一部分分量恰好等于零。在机器学习中这直接对应于特征选择——系数为零的特征被认为是不重要的可以被模型剔除。这带来了两大好处模型可解释性提升最终模型只包含少数几个特征更容易让人理解是哪些因素在驱动预测。预测性能可能提升通过剔除噪声或不相关的特征降低了模型过拟合的风险有时能在测试集上获得更好的表现。那么为什么L1惩罚会产生稀疏性而L2惩罚不会呢这需要从几何和代数两个角度来理解。3.2 几何直观约束区域的“尖角”让我们回到约束形式的视角。Lasso的约束形式是在||β||₁ ≤ C的条件下最小化||Y - Xβ||²。L1范数约束在二维空间中是一个菱形在高维空间是一个“菱形”的超多面体。这个多面体是有“尖角”的这些尖角恰好位于坐标轴上即某些分量为零的位置。现在想象残差平方和||Y - Xβ||²的等值线椭圆。最优解是椭圆与约束区域首次相切的点。由于L1约束区域有尖角椭圆很容易首先碰到这些尖角。一旦在尖角处相切该尖角对应的坐标轴上的分量即某个βᵢ自然就是零。相比之下L2约束一个圆球是光滑的椭圆与圆球相切于非坐标轴点的概率要大得多因此岭回归的解通常所有分量都不为零。3.3 代数刻画次梯度与最优性条件从代数上我们需要严谨地推导Lasso解的条件。目标函数G(β) ||Y - Xβ||² λ||β||₁在绝对值函数|βᵢ|的零点处不可导因此需要使用次梯度的概念。对于函数f(x) |x|其在x0处的次微分∂f(0)是区间[-1, 1]。也就是说在零点梯度可以取-1到1之间的任何值。对于Lasso问题最优解β必须满足0属于目标函数G(β)在β处的次微分。经过推导假设数据已中心化即截距a0已单独处理且x的每个特征已标准化为单位方差我们可以得到一组简洁而强大的最优性条件即KKT条件对于Lasso的特殊形式令r Xᵀ(Y - Xβ)这是当前残差与每个特征的协方差向量。对于每一个特征i最优解β*必须满足如果|rᵢ| λ/2则必有βᵢ* 0。如果βᵢ* ≠ 0则必有rᵢ sign(βᵢ*) * (λ/2)。这组条件极其深刻。它告诉我们驱动机制特征i的系数βᵢ是否被激活非零取决于该特征与当前残差的协方差rᵢ的绝对值是否足够大需要超过阈值λ/2。符号确定如果被激活其系数的符号由rᵢ的符号决定。软阈值对于激活的特征其解满足βᵢ* (XᵢᵀXᵢ)⁻¹ (XᵢᵀY - sign(βᵢ*) * λ/2)。这可以看作是对普通最小二乘解施加了一个“软阈值”操作将最小二乘解向零收缩收缩量正比于λ。注意事项这里的推导假设特征已标准化方差为1。如果未标准化惩罚项通常写为λ Σ σᵢ |βᵢ|其中σᵢ是特征i的标准差估计。这相当于对不同的特征施加了不同尺度的惩罚重要性不变。在实际应用sklearn的Lasso时如果设置normalizeTrue或使用StandardScaler预处理库内部会自动处理这一点使得λ对所有特征具有可比性。3.4 系数路径与LARS算法由于最优性条件清晰地揭示了系数与λ的关系我们可以描绘出当λ从无穷大所有系数为0变化到0最小二乘解时每个系数βᵢ的变化轨迹这被称为系数路径。路径是分段线性的在λ的某些临界点会有某个特征的协方差|rᵢ|达到阈值λ/2从而该特征被“激活”进入模型或其系数穿过零点被“剔除”出模型。在两个临界点之间所有活跃集非零系数集合不变系数是λ的线性函数。基于这一观察诞生了非常高效的**最小角回归Least Angle Regression, LARS**算法。LARS算法可以精确地计算出整个系数路径其计算复杂度与普通最小二乘拟合一次相当。算法从所有系数为零开始找到与当前残差最相关的特征即|rᵢ|最大的特征将该特征加入活跃集然后沿着“最小角”的方向即保持当前所有活跃特征与残差的相关性相等并下降的方向更新系数直到另一个特征的相关性达到阈值将其加入活跃集如此往复直到所有特征都被加入或满足停止条件。LARS算法为理解Lasso提供了另一个直观视角它以一种最均衡的方式将预测变量的贡献逐步加入到模型中。4. 求解LassoADMM算法详解与实现4.1 为什么需要专门的优化算法尽管Lasso的最优性条件很清晰并且有LARS这样的路径算法但对于超高维数据特征数d极大或者在线学习、分布式计算场景我们通常需要一种迭代算法来求解给定λ下的Lasso问题。这是因为LARS路径算法需要计算矩阵的逆当d很大时例如d 10^4即使只针对活跃集计算和存储(XᵀX)的逆也可能非常昂贵。闭式解不存在与岭回归不同Lasso没有像(XᵀX λI)⁻¹XᵀY这样的闭式解因为L1惩罚项不可导。问题可分解Lasso的目标函数是“可分离”的损失函数||Y - Xβ||²关于β是光滑可导的但耦合了所有β而惩罚项λ||β||₁是关于每个βᵢ可分离的、非光滑的。这种结构非常适合一类称为“分裂算子”的算法。交替方向乘子法ADMM正是利用了这一结构成为求解大规模Lasso问题最流行、最稳健的算法之一。4.2 ADMM算法框架与Lasso问题重构ADMM的核心思想是将一个难以直接求解的复杂问题通过引入辅助变量和拉格朗日乘子分解成几个更简单的、可并行求解的子问题。对于Lasso问题最小化||Y - Xβ||² λ||γ||₁我们引入一个约束Dβ - γ 0。这里D通常是一个对角矩阵用于对不同的特征施加不同的惩罚权重例如D diag(σ₁, σ₂, ...)。当D是单位矩阵时约束就是β γ。这个重构看似多余实则巧妙地将原问题中的变量β“复制”成了γ从而将目标函数中的光滑部分与β相关和非光滑部分与γ相关分离开。相应的增广拉格朗日函数为L_ρ(β, γ, τ) ||Y - Xβ||² λ||γ||₁ (ρ/2) ||Dβ - γ τ||²其中τ是对偶变量拉格朗日乘子缩放后的版本ρ 0是一个惩罚参数。4.3 ADMM迭代步骤的分解与求解ADMM算法通过交替优化β、γ并更新对偶变量τ来求解β-更新固定γ和τ最小化L_ρ关于β的部分。β^(k1) argmin_β { ||Y - Xβ||² (ρ/2) ||Dβ - γ^(k) τ^(k)||² }这是一个关于β的最小二乘问题且是光滑的。其解有闭式形式β^(k1) (XᵀX (ρ/2) DᵀD)⁻¹ [ XᵀY (ρ/2) Dᵀ(γ^(k) - τ^(k)) ]这里需要求解一个线性系统。当特征维度d很大时直接求逆不可行通常使用共轭梯度法CG等迭代线性系统求解器。如果X是稀疏的可以利用其稀疏结构大幅加速。γ-更新固定β和τ最小化L_ρ关于γ的部分。γ^(k1) argmin_γ { λ||γ||₁ (ρ/2) ||Dβ^(k1) - γ τ^(k)||² }这个问题的美妙之处在于由于L1范数是可分离的这个问题可以按分量独立求解对于每个分量i我们需要求解γ_i^(k1) argmin_t { λ|t| (ρ/2) (v_i - t)² } 其中v_i D_i β_i^(k1) τ_i^(k)这个一元优化问题的解就是著名的软阈值算子Soft-thresholding operatorγ_i^(k1) S_{λ/ρ}(v_i) sign(v_i) * max(|v_i| - λ/ρ, 0)这个操作直观明了如果v_i的绝对值小于阈值λ/ρ就将其置为零否则就将其向零收缩λ/ρ个单位。这一步计算代价极低且完全可并行。τ-更新更新对偶变量。τ^(k1) τ^(k) Dβ^(k1) - γ^(k1)这一步是标准的对偶变量更新用于衡量约束Dβ γ的违反程度并在下一次迭代中通过增广拉格朗日项进行修正。4.4 ADMM的收敛性与参数选择ADMM算法在很一般的条件下目标函数是闭的、真凸函数且增广拉格朗日函数有鞍点可以保证收敛到全局最优解。对于Lasso问题由于其强凸性损失函数部分收敛速度通常是线性的。参数ρ的选择对收敛速度有显著影响ρ过大算法会过于强调满足约束Dβγ导致β-子问题占主导γ的更新阈值操作可能很激进收敛可能变慢。ρ过小对约束的惩罚太轻算法需要更多迭代才能使原问题残差Dβ-γ变小。一个常见的启发式方法是选择ρ 1作为起点或者根据问题数据动态调整ρ如根据原问题残差和对偶残差的比例进行调整。停止准则通常基于原问题残差r^(k) Dβ^(k) - γ^(k)和对偶残差s^(k) ρ D(γ^(k) - γ^(k-1))的范数。当两者都小于设定的绝对容忍度与相对容忍度组合的阈值时算法停止。实操心得与常见陷阱特征标准化在应用ADMM或任何Lasso求解器前务必对特征进行标准化均值为0方差为1。否则L1惩罚对不同尺度的特征不公平大数值特征天然承受更重的惩罚这通常不是我们想要的。标准化后λ对所有特征的意义才一致。截距项的处理截距项β₀通常不应被惩罚。在ADMM的公式中这可以通过让矩阵D中对应截距项的对角线元素为0来实现这样在γ-更新中截距项就不会被阈值化。内存与计算对于超大规模问题即使使用ADMMβ-更新步骤中的(XᵀX (ρ/2)DᵀD)矩阵求逆或线性系统求解也可能是瓶颈。此时可以考虑使用随机梯度下降的变种如FISTA快速迭代收缩阈值算法它不需要求解线性系统每次迭代只计算梯度并进行软阈值操作更适合海量数据。λ的选择ADMM求解的是固定λ的问题。在实际中我们需要通过交叉验证来选择最优的λ。一个高效的策略是使用“正则化路径”算法如LARS或坐标下降法先计算出一系列λ下的解然后用交叉验证评估最后再用ADMM精细求解最优λ附近的几个点。5. 超越岭回归与Lasso相关方法与应用考量5.1 Elastic Net结合L1与L2的优势在实践中我们常常面临这样的困境Lasso在特征选择上非常出色但当特征高度相关时它倾向于随机地从一组相关特征中只选一个这不太稳定。岭回归能处理共线性但不会产生稀疏解。弹性网络Elastic Net应运而生它结合了L1和L2惩罚最小化||Y - Xβ||² λ₁||β||₁ λ₂||β||²其等价约束形式为||Y - Xβ||² 约束条件(1-α)||β||₁ α||β||² ≤ C 其中α∈[0,1]控制混合比例。Elastic Net同时获得了Lasso的稀疏性和岭回归的群体效应grouping effect即高度相关的特征倾向于被同时选中或同时排除且系数值相近。其求解算法可以看作是Lasso算法如坐标下降、ADMM的自然扩展只需在更新规则中同时考虑L1和L2项的影响。5.2 从次梯度到近端梯度更广阔的优化视角Lasso的求解将我们引向了非光滑优化的领域。次梯度下降是处理不可导目标函数最直接的方法但它的收敛速度很慢O(1/√k)。近端梯度下降Proximal Gradient Descent提供了更快的框架。对于形如F(β) f(β) g(β)的目标函数其中f光滑可导如最小二乘损失g非光滑但“简单”如L1范数其近端算子就是软阈值近端梯度法的迭代步骤为β^(k1) prox_{ηg}(β^(k) - η ∇f(β^(k)))其中prox_{ηg}(v)是函数g的近端算子对于L1范数prox_{ηλ||·||₁}(v) S_{ηλ}(v)即软阈值算子。FISTAFast Iterative Shrinkage-Thresholding Algorithm是近端梯度法的一个加速版本通过引入动量项将收敛速度提升到O(1/k²)在实践中应用非常广泛。许多高效的Lasso求解库如scikit-learn中的坐标下降法底层也借鉴了类似思想都基于这些算法。5.3 模型选择与超参数调优实战理解了算法最终要落地到应用。如何为岭回归或Lasso选择正则化强度λ信息准则AIC/BIC在训练集上拟合不同λ的模型计算AIC或BIC选择值最小的模型。这种方法计算快但依赖于大样本渐近理论在有限样本下可能不准。交叉验证Cross-Validation这是金标准。最常用的是K折交叉验证。将数据随机分成K份。依次将每一份作为验证集其余K-1份作为训练集用训练集拟合模型在验证集上计算误差如均方误差MSE。对每个λ计算K次验证误差的平均值。选择平均验证误差最小的λ。为了更稳定可以对每个λ进行多次不同的数据划分重复交叉验证取误差的平均。正则化路径与交叉验证对于Lasso利用LARS或坐标下降法可以高效计算出一整条系数路径对应一系列λ。然后在这条路径上对每个λ或等间隔采样进行交叉验证可以快速找到最优λ。常见问题排查问题交叉验证曲线非常平坦找不到明显的最优点。排查这可能意味着正则化的效果不明显或者数据中的信号很强过拟合风险小。可以尝试扩大λ的搜索范围例如从1e-5到1e5对数均匀采样或者检查特征工程是否充分也许模型本身能力不足。问题Lasso选出的特征数量远少于预期甚至为零。排查λ可能设置得过大。检查λ的搜索范围确保包含了较小的值。另外检查特征尺度确保已标准化。如果响应变量和特征之间的线性关系很弱Lasso也可能无法选出有效特征。问题模型在训练集上表现很好但在测试集上很差。排查这是典型的过拟合。首先确保你是在用交叉验证选择λ而不是在训练集上选择。其次检查是否使用了测试集参与任何模型选择或参数调整过程数据泄露。最后考虑是否模型复杂度仍然太高可以尝试更强的正则化增大λ或者使用Elastic Net。问题ADMM算法收敛很慢。排查调整惩罚参数ρ。可以尝试一个更激进的更新策略如根据原残差和对偶残差的比例每若干迭代调整一次ρ。此外检查β-更新步骤的线性系统求解是否准确不准确的求解会拖慢整体收敛。对于超大问题考虑使用更简单的求解器如坐标下降或随机优化方法。从岭回归的稳定解到Lasso的稀疏性与自动特征选择再到ADMM、近端梯度等现代优化算法的精妙分解正则化技术为我们提供了控制模型复杂度、提升泛化能力的强大工具箱。理解其背后的数学原理不仅能帮助我们在实践中正确调参、解读结果更能让我们在遇到新问题时有能力去调整甚至创造新的正则化形式。在实际项目中我通常会从简单的岭回归或Lasso开始建立基线通过交叉验证观察模型表现和特征重要性再决定是否需要引入更复杂的结构如分组Lasso、图拉普拉斯惩罚等。记住没有免费的午餐任何正则化都是一种引入偏差来减少方差的权衡而找到那个最佳的权衡点正是机器学习的艺术所在。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2641906.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！