第六章.  Theory of Generalization
上一章节我们主要探讨了M数值的大小对机器学习的影响。若M很大,我们就不能保证机器学习有很好的泛化能力,所以我们的问题就转换成验证M有限,最好是按照多项式成长,然后引入了成长函数mH(N)和二分类以及break point的概念,提出2D perceptrons的成长函数mH(N)是多项式级别的猜想。本章节将深入探讨和证明这部分内容。
6.1 Restriction of Break Point
1.统计学层面机器学习流程图
1).4种成长函数与break point的关系:

2).示例
·示例:
 若k=2(k为break point出现的位置),那么当N(点的数量)取不同值时,计算成长函数mH(N)的值。
 ①.当N=1时,mH(N)=2;
 ②.当N=2时,mH(N)=3;
 ③.当N=3时,mH(N)=4;
 
 ·总结:
  a).当N>k时,break point就会限制mH(N)的大小,影响成长函数mH(N)的主要因素有两个:
 ①.抽样数据集N
 ②.break point k
 b).若给定N和k,能够证明成长函数mH(N)最大值的上界是多项式,在根据Hoeffding’s inequality,就能用mH(N)来代替M,证明机器学习是可行的,所以证明成长函数mH(N)的上界是多项式poly(N),就是我们的目标。
 
6.2 Bounding Function: Basic Cases
1.bounding function
1).定义
 ·bounding function:当break point=k时,成长函数mH(N)可能出现的最大值 ,简写为B(N,k),就是mH(N)的上界,对应mH(N)最多有多少种dichotomy,我们的目标就是证明:
 
 注意: B(N,k)的引入不考虑是1D postive intrervals问题还是2Dperceptrons问题,而只关心成长函数的上界是多少,目的是为了简化问题的复杂度。
 
2).B(N,k)的计算
·当k=1时,B(N,1)恒为1。
 ·当N < k时,根据break point的定义,B(N,k)=2N 。
 ·当N = k时,此时的N是第一次出现不能被shatter的情况,所以最多只能有2N-1个dichotomies,则 B(N,k)=2N-1。
 ·当N > k的情况比较复杂,在6.3中说明。
6.3 Bounding Function: Inductive Cases
1.在N > k的情况下,B(N,k)的计算推导
1).以B(4,3)为例进行说明:看能否构建B(4,3)与B(3,x)之间的关系?
 ①.B(4,3)所有的情况共有11种。
 
  ②.将这11种二分类,分成两组:orange和purple,orange的特点是x1,x2,x3是一致的,x4不同并成对,例如01和05;purple的特点是单一的,x1,x2,x3都不同,例如06,07,09。
  ③.Orange是成对出现的,去重后得到4个不同的vector并成为α,purple为β,那么B(4,3)=2α+β,这个是直接转化。
 ④.由定义可知,B(4,3)是不能允许任意三点shatter的,所以由α和β构成的所有三点组合也不能被shatter,α经过去重,即α+β≤B(3,3)。
 
  ⑤.由于α是成对出现的,且α是不能被任意三点shatter的,则推导出α是不能被任意两点shatter的,这是因为如果α不能被任意两点shatter,而α又是成对出现的,那么x1、x2、x3、x4组成的α必然能被三个点shatter,这违背了条件的设定,这个地方的推导非常巧妙,也解释了为什么这样分组,得到的结论是α≤B(3,2)。
 
  ⑥.由此可以得出B(4,3)与B(3,x)的关系:
 
  ⑦.以此推导出一般式:
 
  ⑧.根据推导公式,下表给出B(N,k)值:
 
  ⑨.根据推导公式,推导出B(N,k)满足下列不等式:
 
 描述:
 上述不等式的右侧最高阶为Nk-1,也就是说成长函数mH(N)的上界B(N,k),B(N,k)的上界满足多项式分布poly(N).这就是我们想要的结果。(实际上我们可以换一种证明方式证明出,B(N,k)=Nk-1,这里就不说明了)
 ⑩.成长函数mH(N)的上界B(N,k),B(N,k)的上界满足多项式分布poly(N),再来看之前介绍的成长函数mH(N)与break point的关系:
 
2.结论
对于2D perceptrons,break point为k=4时,mH(N)的上界是Nk-1;推到后,如果能找到一个模型的break point,且是有限的,那么就能推导出成长函数mH(N)有界。
6.4 A Pictorial Proof
1.如何用mH(N)代替Hoffding不等式中的M?
1).如果能够将mH(N)代替M,代入到Hoffding不等式中,就能得到Ein≈Eout:
 ①.我们想象中的是直接取代:
  ②.实际上并不是简单的替换就可以,正确的表达式为:
 
2).推导证明:
 ①.
 
  ②.
 
  ③.
 
3).我们通过引入成长函数,得到了新的不等式,称为VapnikChervonenkis(VC) bound:
 
4).总结:
对于2D perceptrons,它的break point是4,那么成长函数mH(N)=O(N3),所以我们可以说2D perceptrons是可以进行机器学习的,只要找到hypothesis能让Ein≈0,就能保证Ein≈Eout。
6.5 总结
本章节主要介绍了只要存在break point,那么成长函数mH(N)就满足ploy(N),推导过程中引入了mH(N)的上界B(N,k),B(N,k)的上界是Nk-1,从而得到了mH(N)的上界是Nk-1,最终证明了只要break point存在,那么机器学习就是可行的。



















