【漫话机器学习系列】268. K 折交叉验证（K-Fold Cross-Validation）

news2025/7/14 9:53:55

图解 K 折交叉验证（K-Fold Cross-Validation）| 原理 + 数学公式 + 实践应用

原图作者：Chris Albon，手绘风格清晰易懂，本文基于其图解做详细扩展，适用于机器学习、深度学习初学者及进阶者参考学习。

一、什么是 K 折交叉验证？

K 折交叉验证（K-Fold Cross-Validation）是一种评估机器学习模型性能的重采样方法。它通过将原始训练数据划分为 K 个相等的子集（fold），反复训练和验证模型，从而更稳定、更可靠地评估模型在未知数据上的泛化能力。

为什么要使用交叉验证？

减少模型评估的方差，提高模型评估的鲁棒性；
更加充分地利用数据（相较于单一的训练/验证集划分）；
适用于模型选择、参数调优等任务中的性能对比。

二、K 折交叉验证的流程详解

以 K=5 为例：

将数据集划分为 5 个等份；
每次使用其中 1 份作为验证集，剩下 4 份作为训练集；
训练模型并计算验证误差（Loss）；
重复上述过程 5 次（每份数据都做一次验证集）；
对 5 次的验证误差取平均，作为最终评估指标。

图示公式说明：

图片中给出的是 K 折交叉验证的数学公式：

$CV_{(k)} = \frac{1}{K} \sum_{i=1}^{K} \text{Loss}_i$

解释如下：

K：表示将数据集划分为的折数，常用 10 折（10-Fold）；
$\text{Loss}_i$ ：第 i 折验证集上的损失值（例如均方误差）；
$CV_{(k)}$ ：K 折交叉验证的平均损失值。

三、如何选择 K 值？

10 折交叉验证（K=10）：实践中最常见，兼顾了训练充分与验证稳定；
5 折交叉验证（K=5）：当数据量不大时也较常用；
Leave-One-Out（K = N）：每次只留一条数据作为验证，计算开销大，但评估极为稳定。

一般推荐使用 10-Fold，因为它在偏差与方差之间取得了较好的平衡。

四、Loss（损失函数）可以是什么？

在不同的任务场景下，损失函数（Loss）可以有多种选择，图片中也列举了常见的三种：

均方误差（MSE）：用于回归问题，惩罚偏差较大的预测值；
对数损失函数（Log Loss）：用于二分类或多分类，衡量概率预测的准确度；
精度（Accuracy）：用于分类问题，衡量预测正确的比例。

你可以根据实际任务选择合适的评估指标。

五、代码实现（以 scikit-learn 为例）

下面是一个使用 scikit-learn 实现 K 折交叉验证的简单示例：

from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
import numpy as np

# 加载数据集
X, y = load_iris(return_X_y=True)

# 定义模型
model = LogisticRegression(max_iter=200)

# 定义 KFold（10折）
kf = KFold(n_splits=10, shuffle=True, random_state=42)

# 执行交叉验证
scores = cross_val_score(model, X, y, cv=kf, scoring='accuracy')

# 输出结果
print("每折的准确率：", scores)
print("平均准确率：", np.mean(scores))