第六章. Theory of Generalization

news2026/3/7 13:32:35

第六章. Theory of Generalization

上一章节我们主要探讨了M数值的大小对机器学习的影响。若M很大，我们就不能保证机器学习有很好的泛化能力，所以我们的问题就转换成验证M有限，最好是按照多项式成长，然后引入了成长函数m_H(N)和二分类以及break point的概念，提出2D perceptrons的成长函数m_H(N)是多项式级别的猜想。本章节将深入探讨和证明这部分内容。

6.1 Restriction of Break Point

1.统计学层面机器学习流程图

1).4种成长函数与break point的关系：

请添加图片描述

2).示例

·示例：
若k=2（k为break point出现的位置）,那么当N（点的数量）取不同值时，计算成长函数m_H(N)的值。
①.当N=1时，m_H(N)=2；
②.当N=2时，m_H(N)=3；
③.当N=3时，m_H(N)=4；
在这里插入图片描述
·总结：
a).当N>k时，break point就会限制m_H(N)的大小，影响成长函数m_H(N)的主要因素有两个：
①.抽样数据集N
②.break point k

b).若给定N和k，能够证明成长函数m_H(N)最大值的上界是多项式，在根据Hoeffding’s inequality，就能用m_H(N)来代替M，证明机器学习是可行的，所以证明成长函数m_H(N)的上界是多项式poly(N)，就是我们的目标。
在这里插入图片描述

6.2 Bounding Function: Basic Cases

1.bounding function

1).定义

·bounding function：当break point=k时，成长函数m_H(N)可能出现的最大值，简写为B(N,k)，就是m_H(N)的上界，对应m_H(N)最多有多少种dichotomy，我们的目标就是证明：
在这里插入图片描述
注意： B(N,k)的引入不考虑是1D postive intrervals问题还是2Dperceptrons问题，而只关心成长函数的上界是多少，目的是为了简化问题的复杂度。

2).B(N,k)的计算

·当k=1时，B(N,1)恒为1。
·当N < k时，根据break point的定义，B(N,k)=2^N 。
·当N = k时，此时的N是第一次出现不能被shatter的情况，所以最多只能有2^N-1个dichotomies，则 B(N,k)=2^N-1。请添加图片描述
·当N > k的情况比较复杂，在6.3中说明。

6.3 Bounding Function: Inductive Cases

1.在N > k的情况下，B(N,k)的计算推导

1).以B(4,3)为例进行说明：看能否构建B(4,3)与B(3,x)之间的关系？

①.B(4,3)所有的情况共有11种。
在这里插入图片描述
②.将这11种二分类，分成两组：orange和purple，orange的特点是x1，x2，x3是一致的，x4不同并成对，例如01和05；purple的特点是单一的，x1，x2，x3都不同，例如06,07,09。请添加图片描述
③.Orange是成对出现的，去重后得到4个不同的vector并成为α，purple为β，那么B(4,3)=2α+β，这个是直接转化。

④.由定义可知，B(4,3)是不能允许任意三点shatter的，所以由α和β构成的所有三点组合也不能被shatter，α经过去重，即α+β≤B(3,3)。
请添加图片描述
⑤.由于α是成对出现的，且α是不能被任意三点shatter的，则推导出α是不能被任意两点shatter的，这是因为如果α不能被任意两点shatter，而α又是成对出现的，那么x1、x2、x3、x4组成的α必然能被三个点shatter，这违背了条件的设定，这个地方的推导非常巧妙，也解释了为什么这样分组，得到的结论是α≤B(3,2)。
请添加图片描述
⑥.由此可以得出B(4,3)与B(3,x)的关系：
在这里插入图片描述
⑦.以此推导出一般式：

⑧.根据推导公式，下表给出B(N,k)值：

⑨.根据推导公式，推导出B(N,k)满足下列不等式：

描述：
上述不等式的右侧最高阶为N^k-1,也就是说成长函数m_H(N)的上界B(N,k)，B(N,k)的上界满足多项式分布poly(N).这就是我们想要的结果。（实际上我们可以换一种证明方式证明出，B(N,k)=N^k-1，这里就不说明了）