定义
感知机:假设输入控件(特征空间)是 
     
      
       
       
         X 
        
       
         ⊆ 
        
        
        
          R 
         
        
          n 
         
        
       
      
        \mathcal{X} \subseteq \mathbb{R}^n 
       
      
    X⊆Rn,输出空间是 
     
      
       
       
         Y 
        
       
         = 
        
        
        
          { 
         
        
          + 
         
        
          1 
         
        
          , 
         
        
          − 
         
        
          1 
         
        
          } 
         
        
       
      
        \mathcal{Y}=\left\{+1, -1\right\} 
       
      
    Y={+1,−1},输入 
     
      
       
       
         x 
        
       
         ∈ 
        
       
         X 
        
       
      
        \mathbf{x}\in\mathcal{X} 
       
      
    x∈X表示实例的特征向量,对应于输入空间(特征空间)的点;输出 
     
      
       
       
         y 
        
       
         ∈ 
        
       
         Y 
        
       
      
        y\in\mathcal{Y} 
       
      
    y∈Y表示实例的类别。由输入空间到输出空间的如下函数
  
      
       
        
        
          f 
         
         
         
           ( 
          
         
           x 
          
         
           ) 
          
         
        
          = 
         
         
          
          
            s 
           
          
            i 
           
          
            g 
           
          
            n 
           
          
          
          
            ( 
           
          
            w 
           
          
            ⋅ 
           
          
            x 
           
          
            + 
           
          
            b 
           
          
            ) 
           
          
         
        
       
         f\left(\mathbf{x}\right) = \rm{sign}\left(\mathbf{w}\cdot \mathbf{x} + b\right) 
        
       
     f(x)=sign(w⋅x+b)
 称为感知机,其中 
     
      
       
       
         w 
        
       
      
        \mathbf{w} 
       
      
    w和 
     
      
       
       
         b 
        
       
      
        b 
       
      
    b为感知机参数
  
      
       
        
         
         
           s 
          
         
           i 
          
         
           g 
          
         
           n 
          
         
         
         
           ( 
          
         
           x 
          
         
           ) 
          
         
        
          = 
         
         
         
           { 
          
          
           
            
             
              
              
                + 
               
              
                1 
               
              
                , 
               
              
             
            
            
             
              
              
                x 
               
              
                ≥ 
               
              
                0 
               
              
             
            
           
           
            
             
              
              
                − 
               
              
                1 
               
              
                , 
               
              
             
            
            
             
              
              
                x 
               
              
                < 
               
              
                0 
               
              
             
            
           
          
         
        
       
         \rm{sign}\left(x\right) = \begin{cases} +1, & x\ge 0\\ -1, & x < 0 \end{cases} 
        
       
     sign(x)={+1,−1,x≥0x<0
 
学习策略
数据集的线性可分性
给定一个数据集
  
      
       
        
        
          T 
         
        
          = 
         
         
         
           { 
          
          
          
            ( 
           
           
           
             x 
            
           
             1 
            
           
          
            , 
           
           
           
             y 
            
           
             1 
            
           
          
            ) 
           
          
         
           , 
          
          
          
            ( 
           
           
           
             x 
            
           
             2 
            
           
          
            , 
           
           
           
             y 
            
           
             2 
            
           
          
            ) 
           
          
         
           , 
          
         
           ⋯ 
           
         
           , 
          
          
          
            ( 
           
           
           
             x 
            
           
             N 
            
           
          
            , 
           
           
           
             y 
            
           
             N 
            
           
          
            ) 
           
          
         
           } 
          
         
        
       
         T = \left\{\left(\mathbf{x}_1, y_1\right), \left(\mathbf{x}_2, y_2\right),\cdots, \left(\mathbf{x}_N, y_N\right)\right\} 
        
       
     T={(x1,y1),(x2,y2),⋯,(xN,yN)}
 其中 
     
      
       
        
        
          x 
         
        
          i 
         
        
       
         ∈ 
        
       
         X 
        
       
         = 
        
        
        
          R 
         
        
          n 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ∈ 
        
       
         Y 
        
       
         = 
        
        
        
          { 
         
        
          + 
         
        
          1 
         
        
          , 
         
        
          − 
         
        
          1 
         
        
          } 
         
        
       
      
        \mathbf{x}_i \in \mathcal{X} = \mathbb{R}^n, y_i\in\mathcal{Y} = \left\{+1, -1\right\} 
       
      
    xi∈X=Rn,yi∈Y={+1,−1}
 如果存在某个超平面 
     
      
       
       
         S 
        
       
      
        S 
       
      
    S
  
      
       
        
        
          w 
         
        
          ⋅ 
         
        
          x 
         
        
          + 
         
        
          b 
         
        
          = 
         
        
          0 
         
        
       
         \mathbf{w}\cdot \mathbf{x} + b = 0 
        
       
     w⋅x+b=0
 能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有 
     
      
       
        
        
          y 
         
        
          i 
         
        
       
         = 
        
       
         + 
        
       
         1 
        
       
      
        y_i = +1 
       
      
    yi=+1的实例 
     
      
       
       
         i 
        
       
      
        i 
       
      
    i,有 
     
      
       
       
         w 
        
       
         ⋅ 
        
        
        
          x 
         
        
          i 
         
        
       
         + 
        
       
         b 
        
       
         > 
        
       
         0 
        
       
      
        \mathbf{w}\cdot \mathbf{x}_i + b > 0 
       
      
    w⋅xi+b>0;对所有 
     
      
       
        
        
          y 
         
        
          i 
         
        
       
         = 
        
       
         − 
        
       
         1 
        
       
      
        y_i = -1 
       
      
    yi=−1的实例 
     
      
       
       
         i 
        
       
      
        i 
       
      
    i,有 
     
      
       
       
         w 
        
       
         ⋅ 
        
        
        
          x 
         
        
          i 
         
        
       
         + 
        
       
         b 
        
       
         < 
        
       
         0 
        
       
      
        \mathbf{w}\cdot \mathbf{x}_i + b <0 
       
      
    w⋅xi+b<0,则称数据集 
     
      
       
       
         T 
        
       
      
        T 
       
      
    T为线性可分数据集(linearly separable data set),否则,称数据集 
     
      
       
       
         T 
        
       
      
        T 
       
      
    T线性不可分
学习策略
假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。
感知机所采用的损失函数是误分类点到超平面 S S S的总距离。
首先输入空间 
     
      
       
        
        
          R 
         
        
          n 
         
        
       
      
        \mathbf{R}^n 
       
      
    Rn中任一点 
     
      
       
        
        
          x 
         
        
          0 
         
        
       
      
        \mathbf{x}_0 
       
      
    x0到超平面的距离:
  
      
       
        
         
         
           1 
          
          
          
            ∥ 
           
          
            w 
           
          
            ∥ 
           
          
         
         
         
           ∣ 
          
         
           w 
          
         
           ⋅ 
          
          
          
            x 
           
          
            0 
           
          
         
           + 
          
         
           b 
          
         
           ∣ 
          
         
        
       
         \frac{1}{\|\mathbf{w}\|} \left|\mathbf{w}\cdot \mathbf{x}_0 + b\right| 
        
       
     ∥w∥1∣w⋅x0+b∣
其次,对于误分类数据 
     
      
       
       
         ( 
        
        
        
          x 
         
        
          i 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ) 
        
       
      
        \left(\mathbf{x}_i, y_i\right) 
       
      
    (xi,yi)来说,
  
      
       
        
        
          − 
         
         
         
           y 
          
         
           i 
          
         
         
         
           ( 
          
         
           w 
          
         
           ⋅ 
          
          
          
            x 
           
          
            i 
           
          
         
           + 
          
         
           b 
          
         
           ) 
          
         
        
          > 
         
        
          0 
         
        
       
         -y_i\left(\mathbf{w}\cdot \mathbf{x}_i + b\right) > 0 
        
       
     −yi(w⋅xi+b)>0
 因此,误分类点 
     
      
       
        
        
          x 
         
        
          i 
         
        
       
      
        \mathbf{x}_i 
       
      
    xi到超平面 
     
      
       
       
         S 
        
       
      
        S 
       
      
    S的距离是
  
      
       
        
        
          − 
         
         
         
           1 
          
          
          
            ∥ 
           
          
            w 
           
          
            ∥ 
           
          
         
         
         
           y 
          
         
           i 
          
         
         
         
           ( 
          
         
           w 
          
         
           ⋅ 
          
          
          
            x 
           
          
            i 
           
          
         
           + 
          
         
           b 
          
         
           ) 
          
         
        
       
         -\frac{1}{\|\mathbf{w}\|}y_i\left(\mathbf{w}\cdot \mathbf{x}_i + b\right) 
        
       
     −∥w∥1yi(w⋅xi+b)
 假设超平面 
     
      
       
       
         S 
        
       
      
        S 
       
      
    S的误分类点集合为 
     
      
       
       
         M 
        
       
      
        M 
       
      
    M, 那么所有误分类点到超平面 
     
      
       
       
         S 
        
       
      
        S 
       
      
    S的总距离为
  
      
       
        
        
          − 
         
         
         
           1 
          
          
          
            ∥ 
           
          
            w 
           
          
            ∥ 
           
          
         
         
         
           ∑ 
          
          
           
           
             x 
            
           
             i 
            
           
          
            ∈ 
           
          
            M 
           
          
         
         
         
           y 
          
         
           i 
          
         
         
         
           ( 
          
         
           w 
          
         
           ⋅ 
          
          
          
            x 
           
          
            i 
           
          
         
           + 
          
         
           b 
          
         
           ) 
          
         
        
       
         -\frac{1}{\|\mathbf{w}\|}\sum_{\mathbf{x}_i\in M}y_i\left(\mathbf{w}\cdot \mathbf{x}_i + b\right) 
        
       
     −∥w∥1xi∈M∑yi(w⋅xi+b)
 不考虑 
     
      
       
        
        
          1 
         
         
         
           ∥ 
          
         
           w 
          
         
           ∥ 
          
         
        
       
      
        \frac{1}{\|\mathbf{w}\|} 
       
      
    ∥w∥1,就是感知机学习的损失函数
给定训练数据
  
      
       
        
        
          T 
         
        
          = 
         
         
         
           { 
          
          
          
            ( 
           
           
           
             x 
            
           
             1 
            
           
          
            , 
           
           
           
             y 
            
           
             1 
            
           
          
            ) 
           
          
         
           , 
          
          
          
            ( 
           
           
           
             x 
            
           
             2 
            
           
          
            , 
           
           
           
             y 
            
           
             2 
            
           
          
            ) 
           
          
         
           , 
          
         
           ⋯ 
           
         
           , 
          
          
          
            ( 
           
           
           
             x 
            
           
             N 
            
           
          
            , 
           
           
           
             y 
            
           
             N 
            
           
          
            ) 
           
          
         
           } 
          
         
        
       
         T = \left\{\left(\mathbf{x}_1, y_1\right), \left(\mathbf{x}_2, y_2\right),\cdots, \left(\mathbf{x}_N, y_N\right)\right\} 
        
       
     T={(x1,y1),(x2,y2),⋯,(xN,yN)}
 其中 
     
      
       
        
        
          x 
         
        
          i 
         
        
       
         ∈ 
        
       
         X 
        
       
         = 
        
        
        
          R 
         
        
          n 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ∈ 
        
       
         Y 
        
       
         = 
        
        
        
          { 
         
        
          + 
         
        
          1 
         
        
          , 
         
        
          − 
         
        
          1 
         
        
          } 
         
        
       
      
        \mathbf{x}_i \in \mathcal{X} = \mathbb{R}^n, y_i\in\mathcal{Y} = \left\{+1, -1\right\} 
       
      
    xi∈X=Rn,yi∈Y={+1,−1}
 感知机 
     
      
       
        
        
          s 
         
        
          i 
         
        
          g 
         
        
          n 
         
        
        
        
          ( 
         
        
          w 
         
        
          ⋅ 
         
        
          x 
         
        
          + 
         
        
          b 
         
        
          ) 
         
        
       
      
        \rm{sign}\left(\mathbf{w}\cdot \mathbf{x} + b\right) 
       
      
    sign(w⋅x+b)学习的损失函数定义为
  
      
       
        
        
          L 
         
         
         
           ( 
          
         
           w 
          
         
           , 
          
         
           b 
          
         
           ) 
          
         
        
          = 
         
        
          − 
         
         
         
           ∑ 
          
          
           
           
             x 
            
           
             i 
            
           
          
            ∈ 
           
          
            M 
           
          
         
         
         
           y 
          
         
           i 
          
         
         
         
           ( 
          
         
           w 
          
         
           ⋅ 
          
          
          
            x 
           
          
            i 
           
          
         
           + 
          
         
           b 
          
         
           ) 
          
         
        
       
         L\left(\mathbf{w}, b\right) = -\sum_{\mathbf{x}_i \in M} y_i\left(\mathbf{w}\cdot \mathbf{x}_i + b\right) 
        
       
     L(w,b)=−xi∈M∑yi(w⋅xi+b)
 其中 
     
      
       
       
         M 
        
       
      
        M 
       
      
    M为误分类点的集合
感知机学习算法
原始形式
给定训练数据
  
      
       
        
        
          T 
         
        
          = 
         
         
         
           { 
          
          
          
            ( 
           
           
           
             x 
            
           
             1 
            
           
          
            , 
           
           
           
             y 
            
           
             1 
            
           
          
            ) 
           
          
         
           , 
          
          
          
            ( 
           
           
           
             x 
            
           
             2 
            
           
          
            , 
           
           
           
             y 
            
           
             2 
            
           
          
            ) 
           
          
         
           , 
          
         
           ⋯ 
           
         
           , 
          
          
          
            ( 
           
           
           
             x 
            
           
             N 
            
           
          
            , 
           
           
           
             y 
            
           
             N 
            
           
          
            ) 
           
          
         
           } 
          
         
        
       
         T = \left\{\left(\mathbf{x}_1, y_1\right), \left(\mathbf{x}_2, y_2\right),\cdots, \left(\mathbf{x}_N, y_N\right)\right\} 
        
       
     T={(x1,y1),(x2,y2),⋯,(xN,yN)}
 其中 
     
      
       
        
        
          x 
         
        
          i 
         
        
       
         ∈ 
        
       
         X 
        
       
         = 
        
        
        
          R 
         
        
          n 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ∈ 
        
       
         Y 
        
       
         = 
        
        
        
          { 
         
        
          + 
         
        
          1 
         
        
          , 
         
        
          − 
         
        
          1 
         
        
          } 
         
        
       
      
        \mathbf{x}_i \in \mathcal{X} = \mathbb{R}^n, y_i\in\mathcal{Y} = \left\{+1, -1\right\} 
       
      
    xi∈X=Rn,yi∈Y={+1,−1}
 求参数 
     
      
       
       
         w 
        
       
         , 
        
       
         b 
        
       
      
        \mathbf{w}, b 
       
      
    w,b,使其为一下损失函数极小化问题的解
  
      
       
        
        
          min 
         
        
           
         
        
          L 
         
         
         
           ( 
          
         
           w 
          
         
           , 
          
         
           b 
          
         
           ) 
          
         
        
          = 
         
        
          − 
         
         
         
           ∑ 
          
          
           
           
             x 
            
           
             i 
            
           
          
            ∈ 
           
          
            M 
           
          
         
         
         
           y 
          
         
           i 
          
         
         
         
           ( 
          
         
           w 
          
         
           ⋅ 
          
          
          
            x 
           
          
            i 
           
          
         
           + 
          
         
           b 
          
         
           ) 
          
         
        
       
         \min L\left(\mathbf{w}, b\right) = -\sum_{\mathbf{x}_i \in M} y_i\left(\mathbf{w}\cdot \mathbf{x}_i + b\right) 
        
       
     minL(w,b)=−xi∈M∑yi(w⋅xi+b)
 其中 
     
      
       
       
         M 
        
       
      
        M 
       
      
    M为误分类点的集合
感知机学习算法是误分类驱动的,具体采用随机梯度下降法
 首先任取一个超平面 
     
      
       
        
        
          w 
         
        
          0 
         
        
       
         , 
        
        
        
          b 
         
        
          0 
         
        
       
      
        \mathbf{w}_0, b_0 
       
      
    w0,b0,然后采用梯度下降法不断极小化目标函数
 极小化过程中不是一次使 
     
      
       
       
         M 
        
       
      
        M 
       
      
    M中所有的误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降
∇ w L = − ∑ x i ∈ M y i x i ∇ b L = − ∑ x i ∈ M y i \nabla_{\mathbf{w}} L = -\sum_{\mathbf{x}_i \in M}y_i\mathbf{x}_i\\ \nabla_{b} L = -\sum_{\mathbf{x}_i \in M}y_i\\ ∇wL=−xi∈M∑yixi∇bL=−xi∈M∑yi
感知机学习算法的原始形式
输入: 
     
      
       
       
         T 
        
       
         = 
        
        
        
          { 
         
         
         
           ( 
          
          
          
            x 
           
          
            1 
           
          
         
           , 
          
          
          
            y 
           
          
            1 
           
          
         
           ) 
          
         
        
          , 
         
         
         
           ( 
          
          
          
            x 
           
          
            2 
           
          
         
           , 
          
          
          
            y 
           
          
            2 
           
          
         
           ) 
          
         
        
          , 
         
        
          ⋯ 
          
        
          , 
         
         
         
           ( 
          
          
          
            x 
           
          
            N 
           
          
         
           , 
          
          
          
            y 
           
          
            N 
           
          
         
           ) 
          
         
        
          } 
         
        
       
      
        T = \left\{\left(\mathbf{x}_1, y_1\right), \left(\mathbf{x}_2, y_2\right),\cdots, \left(\mathbf{x}_N, y_N\right)\right\} 
       
      
    T={(x1,y1),(x2,y2),⋯,(xN,yN)},其中 
     
      
       
        
        
          x 
         
        
          i 
         
        
       
         ∈ 
        
       
         X 
        
       
         = 
        
        
        
          R 
         
        
          n 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ∈ 
        
       
         Y 
        
       
         = 
        
        
        
          { 
         
        
          + 
         
        
          1 
         
        
          , 
         
        
          − 
         
        
          1 
         
        
          } 
         
        
       
      
        \mathbf{x}_i \in \mathcal{X} = \mathbb{R}^n, y_i\in\mathcal{Y} = \left\{+1, -1\right\} 
       
      
    xi∈X=Rn,yi∈Y={+1,−1};学习率 
     
      
       
       
         η 
        
        
        
          ( 
         
        
          0 
         
        
          < 
         
        
          η 
         
        
          ≤ 
         
        
          1 
         
        
          ) 
         
        
       
      
        \eta\left(0 < \eta \le 1\right) 
       
      
    η(0<η≤1)
 输出: 
     
      
       
       
         w 
        
       
         , 
        
       
         b 
        
       
      
        \mathbf{w}, b 
       
      
    w,b;感知机模型 
     
      
       
       
         f 
        
        
        
          ( 
         
        
          x 
         
        
          ) 
         
        
       
         = 
        
        
         
         
           s 
          
         
           i 
          
         
           g 
          
         
           n 
          
         
         
         
           ( 
          
         
           w 
          
         
           ⋅ 
          
         
           x 
          
         
           + 
          
         
           b 
          
         
           ) 
          
         
        
       
      
        f\left(x\right) = \rm{sign} \left(\mathbf{w}\cdot \mathbf{x} + b\right) 
       
      
    f(x)=sign(w⋅x+b)
(1)选取初始值 
     
      
       
        
        
          w 
         
        
          0 
         
        
       
         , 
        
        
        
          b 
         
        
          0 
         
        
       
      
        \mathbf{w}_0, b_0 
       
      
    w0,b0
 (2)在训练中选取数据集 
     
      
       
       
         ( 
        
        
        
          x 
         
        
          i 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ) 
        
       
      
        \left(\mathbf{x}_i, y_i\right) 
       
      
    (xi,yi)
 (3)如果 
     
      
       
        
        
          y 
         
        
          i 
         
        
        
        
          ( 
         
        
          w 
         
        
          ⋅ 
         
        
          x 
         
        
          + 
         
        
          b 
         
        
          ) 
         
        
       
         ≤ 
        
       
         0 
        
       
      
        y_i\left(\mathbf{w}\cdot\mathbf{x} + b\right) \le 0 
       
      
    yi(w⋅x+b)≤0
  
      
       
        
        
          w 
         
        
          ← 
         
        
          w 
         
        
          + 
         
        
          η 
         
         
         
           y 
          
         
           i 
          
         
         
         
           x 
          
         
           i 
          
         
         
        
          b 
         
        
          ← 
         
        
          b 
         
        
          + 
         
        
          η 
         
         
         
           y 
          
         
           i 
          
         
        
       
         \mathbf{w} \leftarrow \mathbf{w} + \eta y_i \mathbf{x}_i\\ b \leftarrow b + \eta y_i 
        
       
     w←w+ηyixib←b+ηyi
 (4)转至(2)直至训练集中没有误分类点
根据选择错误点的顺序,得到的结果可能也不同
收敛性
记 
     
      
       
        
        
          w 
         
        
          ^ 
         
        
       
         = 
        
        
        
          ( 
         
         
          
           
            
            
              w 
             
            
           
          
          
           
            
            
              b 
             
            
           
          
         
        
          ) 
         
        
       
         , 
        
        
        
          x 
         
        
          ^ 
         
        
       
         = 
        
        
        
          ( 
         
         
          
           
            
            
              x 
             
            
           
          
          
           
            
            
              1 
             
            
           
          
         
        
          ) 
         
        
       
      
        \hat{\mathbf{w}} = \begin{pmatrix}\mathbf{w}\\b\\\end{pmatrix}, \hat{\mathbf{x}} = \begin{pmatrix}\mathbf{x}\\1\\\end{pmatrix} 
       
      
    w^=(wb),x^=(x1)
 因此 
     
      
       
        
        
          w 
         
        
          ^ 
         
        
       
         ⋅ 
        
        
        
          x 
         
        
          ^ 
         
        
       
         = 
        
       
         w 
        
       
         ⋅ 
        
       
         x 
        
       
         + 
        
       
         b 
        
       
      
        \hat{\mathbf{w}}\cdot \hat{\mathbf{x}} = \mathbf{w} \cdot \mathbf{x} + b 
       
      
    w^⋅x^=w⋅x+b
Novikoff定理:设训练集 
     
      
       
       
         T 
        
       
         = 
        
        
        
          { 
         
         
         
           ( 
          
          
          
            x 
           
          
            1 
           
          
         
           , 
          
          
          
            y 
           
          
            1 
           
          
         
           ) 
          
         
        
          , 
         
         
         
           ( 
          
          
          
            x 
           
          
            2 
           
          
         
           , 
          
          
          
            y 
           
          
            2 
           
          
         
           ) 
          
         
        
          , 
         
        
          ⋯ 
          
        
          , 
         
         
         
           ( 
          
          
          
            x 
           
          
            N 
           
          
         
           , 
          
          
          
            y 
           
          
            N 
           
          
         
           ) 
          
         
        
          } 
         
        
       
      
        T = \left\{\left(\mathbf{x}_1, y_1\right), \left(\mathbf{x}_2, y_2\right),\cdots, \left(\mathbf{x}_N, y_N\right)\right\} 
       
      
    T={(x1,y1),(x2,y2),⋯,(xN,yN)}线性可分,其中 
     
      
       
        
        
          x 
         
        
          i 
         
        
       
         ∈ 
        
       
         X 
        
       
         = 
        
        
        
          R 
         
        
          n 
         
        
       
         , 
        
        
        
          y 
         
        
          i 
         
        
       
         ∈ 
        
       
         Y 
        
       
         = 
        
        
        
          { 
         
        
          + 
         
        
          1 
         
        
          , 
         
        
          − 
         
        
          1 
         
        
          } 
         
        
       
      
        \mathbf{x}_i \in \mathcal{X} = \mathbb{R}^n, y_i\in\mathcal{Y} = \left\{+1, -1\right\} 
       
      
    xi∈X=Rn,yi∈Y={+1,−1}
 (1)存在满足条件 
     
      
       
       
         ∥ 
        
        
         
         
           w 
          
         
           ^ 
          
         
         
         
           o 
          
         
           p 
          
         
           t 
          
         
        
       
         ∥ 
        
       
         = 
        
       
         1 
        
       
      
        \|\hat{\mathbf{w}}_{opt}\| = 1 
       
      
    ∥w^opt∥=1的超平面 
     
      
       
        
         
         
           w 
          
         
           ^ 
          
         
         
         
           o 
          
         
           p 
          
         
           t 
          
         
        
       
         ⋅ 
        
        
        
          x 
         
        
          ^ 
         
        
       
         = 
        
       
         0 
        
       
      
        \hat{\mathbf{w}}_{opt} \cdot \hat{\mathbf{x}} =0 
       
      
    w^opt⋅x^=0将训练数据集完全正确分开;且存在 
     
      
       
       
         γ 
        
       
         > 
        
       
         0 
        
       
      
        \gamma > 0 
       
      
    γ>0使得
  
      
       
        
         
         
           y 
          
         
           i 
          
         
         
         
           ( 
          
          
           
           
             w 
            
           
             ^ 
            
           
           
           
             o 
            
           
             p 
            
           
             t 
            
           
          
         
           ⋅ 
          
          
           
           
             x 
            
           
             ^ 
            
           
          
            i 
           
          
         
           ) 
          
         
        
          ≥ 
         
        
          γ 
         
        
       
         y_i \left(\hat{\mathbf{w}}_{opt} \cdot \hat{\mathbf{x}}_i\right)\ge \gamma 
        
       
     yi(w^opt⋅x^i)≥γ
 (2)令 
     
      
       
       
         R 
        
       
         = 
        
        
         
         
           max 
          
         
            
          
         
         
         
           1 
          
         
           ≤ 
          
         
           i 
          
         
           ≤ 
          
         
           N 
          
         
        
       
         ∥ 
        
        
         
         
           x 
          
         
           ^ 
          
         
        
          i 
         
        
       
         ∥ 
        
       
      
        R = \max\limits_{1 \le i \le N}\|\hat{\mathbf{x}}_i\| 
       
      
    R=1≤i≤Nmax∥x^i∥,则感知机算法在训练数据集上的误分类次数 
     
      
       
       
         k 
        
       
      
        k 
       
      
    k满足
  
      
       
        
        
          k 
         
        
          ≤ 
         
         
          
          
            ( 
           
           
           
             R 
            
           
             γ 
            
           
          
            ) 
           
          
         
           2 
          
         
        
       
         k \le \left(\frac{R}{\gamma}\right)^2 
        
       
     k≤(γR)2
证明:
 (1)由线性可分的定义,显然存在满足条件 
     
      
       
       
         ∥ 
        
        
         
         
           w 
          
         
           ^ 
          
         
         
         
           o 
          
         
           p 
          
         
           t 
          
         
        
       
         ∥ 
        
       
         = 
        
       
         1 
        
       
      
        \|\hat{\mathbf{w}}_{opt}\| = 1 
       
      
    ∥w^opt∥=1的超平面 
     
      
       
        
         
         
           w 
          
         
           ^ 
          
         
         
         
           o 
          
         
           p 
          
         
           t 
          
         
        
       
         ⋅ 
        
        
        
          x 
         
        
          ^ 
         
        
       
         = 
        
       
         0 
        
       
      
        \hat{\mathbf{w}}_{opt} \cdot \hat{\mathbf{x}} =0 
       
      
    w^opt⋅x^=0
 令 
     
      
       
       
         γ 
        
       
         = 
        
        
         
         
           min 
          
         
            
          
         
        
          i 
         
        
        
        
          y 
         
        
          i 
         
        
        
        
          ( 
         
         
          
          
            w 
           
          
            ^ 
           
          
          
          
            o 
           
          
            p 
           
          
            t 
           
          
         
        
          ⋅ 
         
         
          
          
            x 
           
          
            ^ 
           
          
         
           i 
          
         
        
          ) 
         
        
       
      
        \gamma = \min\limits_{i} y_i \left(\hat{\mathbf{w}}_{opt} \cdot \hat{\mathbf{x}}_i\right) 
       
      
    γ=iminyi(w^opt⋅x^i),结论成立
 (2)
 设 
     
      
       
        
         
         
           w 
          
         
           ^ 
          
         
        
          0 
         
        
       
         = 
        
       
         0 
        
       
      
        \hat{\mathbf{w}}_0 = \mathbf{0} 
       
      
    w^0=0,如果实例被误分类,则更新权重
 令 
     
      
       
        
         
         
           w 
          
         
           ^ 
          
         
         
         
           k 
          
         
           − 
          
         
           1 
          
         
        
       
      
        \hat{\mathbf{w}}_{k-1} 
       
      
    w^k−1使第 
     
      
       
       
         k 
        
       
      
        k 
       
      
    k个误分类实例之前的权重,则
  
      
       
        
         
         
           y 
          
         
           i 
          
         
         
         
           ( 
          
          
           
           
             w 
            
           
             ^ 
            
           
           
           
             k 
            
           
             − 
            
           
             1 
            
           
          
         
           ) 
          
         
        
          ⋅ 
         
         
          
          
            x 
           
          
            ^ 
           
          
         
           i 
          
         
        
          ≤ 
         
        
          0 
         
        
       
         y_i\left(\hat{\mathbf{w}}_{k-1}\right) \cdot \hat{\mathbf{x}}_i \le 0 
        
       
     yi(w^k−1)⋅x^i≤0
 并且
  
      
       
        
         
          
          
            w 
           
          
            ^ 
           
          
         
           k 
          
         
        
          = 
         
         
          
          
            w 
           
          
            ^ 
           
          
          
          
            k 
           
          
            − 
           
          
            1 
           
          
         
        
          + 
         
        
          η 
         
         
         
           y 
          
         
           i 
          
         
         
          
          
            x 
           
          
            ^ 
           
          
         
           i 
          
         
        
       
         \hat{\mathbf{w}}_k = \hat{\mathbf{w}}_{k-1} + \eta y_i\hat{\mathbf{x}}_i 
        
       
     w^k=w^k−1+ηyix^i
w ^ k ⋅ w ^ o p t = w ^ k − 1 ⋅ w ^ o p t + η y i ( x ^ i ⋅ w ^ o p t ) ≥ w ^ k − 1 ⋅ w ^ o p t + η γ ≥ k η γ \begin{aligned} \hat{\mathbf{w}}_k \cdot \hat{\mathbf{w}}_{opt} &= \hat{\mathbf{w}}_{k-1}\cdot \hat{\mathbf{w}}_{opt} + \eta y_i\left(\hat{\mathbf{x}}_i\cdot \hat{\mathbf{w}}_{opt}\right)\\ &\ge\hat{\mathbf{w}}_{k-1}\cdot \hat{\mathbf{w}}_{opt} + \eta\gamma\\ &\ge k\eta\gamma \end{aligned} w^k⋅w^opt=w^k−1⋅w^opt+ηyi(x^i⋅w^opt)≥w^k−1⋅w^opt+ηγ≥kηγ
根据 
     
      
       
        
        
          y 
         
        
          i 
         
        
        
        
          ( 
         
         
          
          
            w 
           
          
            ^ 
           
          
          
          
            k 
           
          
            − 
           
          
            1 
           
          
         
        
          ) 
         
        
       
         ⋅ 
        
        
         
         
           x 
          
         
           ^ 
          
         
        
          i 
         
        
       
         ≤ 
        
       
         0 
        
       
      
        y_i\left(\hat{\mathbf{w}}_{k-1}\right) \cdot \hat{\mathbf{x}}_i \le 0 
       
      
    yi(w^k−1)⋅x^i≤0,有
  
      
       
        
         
          
           
            
            
              ∥ 
             
             
              
              
                w 
               
              
                ^ 
               
              
             
               k 
              
             
             
             
               ∥ 
              
             
               2 
              
             
            
           
          
          
           
            
             
            
              = 
             
            
              ∥ 
             
             
              
              
                w 
               
              
                ^ 
               
              
              
              
                k 
               
              
                − 
               
              
                1 
               
              
             
             
             
               ∥ 
              
             
               2 
              
             
            
              + 
             
            
              2 
             
            
              η 
             
             
             
               y 
              
             
               i 
              
             
             
             
               ( 
              
              
               
               
                 w 
                
               
                 ^ 
                
               
               
               
                 k 
                
               
                 − 
                
               
                 1 
                
               
              
             
               ⋅ 
              
              
               
               
                 x 
                
               
                 ^ 
                
               
              
                i 
               
              
             
               ) 
              
             
            
              + 
             
             
             
               η 
              
             
               2 
              
             
             
             
               y 
              
             
               i 
              
             
               2 
              
             
            
              ∥ 
             
             
              
              
                x 
               
              
                ^ 
               
              
             
               i 
              
             
             
             
               ∥ 
              
             
               2 
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              = 
             
            
              ∥ 
             
             
              
              
                w 
               
              
                ^ 
               
              
              
              
                k 
               
              
                − 
               
              
                1 
               
              
             
             
             
               ∥ 
              
             
               2 
              
             
            
              + 
             
            
              2 
             
            
              η 
             
             
             
               y 
              
             
               i 
              
             
             
             
               ( 
              
              
               
               
                 w 
                
               
                 ^ 
                
               
               
               
                 k 
                
               
                 − 
                
               
                 1 
                
               
              
             
               ⋅ 
              
              
               
               
                 x 
                
               
                 ^ 
                
               
              
                i 
               
              
             
               ) 
              
             
            
              + 
             
             
             
               η 
              
             
               2 
              
             
            
              ∥ 
             
             
              
              
                x 
               
              
                ^ 
               
              
             
               i 
              
             
             
             
               ∥ 
              
             
               2 
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              ≤ 
             
            
              ∥ 
             
             
              
              
                w 
               
              
                ^ 
               
              
              
              
                k 
               
              
                − 
               
              
                1 
               
              
             
             
             
               ∥ 
              
             
               2 
              
             
            
              + 
             
             
             
               η 
              
             
               2 
              
             
            
              ∥ 
             
             
              
              
                x 
               
              
                ^ 
               
              
             
               i 
              
             
             
             
               ∥ 
              
             
               2 
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              ≤ 
             
            
              ∥ 
             
             
              
              
                w 
               
              
                ^ 
               
              
              
              
                k 
               
              
                − 
               
              
                1 
               
              
             
             
             
               ∥ 
              
             
               2 
              
             
            
              + 
             
             
             
               η 
              
             
               2 
              
             
             
             
               R 
              
             
               2 
              
             
            
           
          
         
         
          
           
            
           
          
          
           
            
             
            
              ≤ 
             
            
              k 
             
             
             
               η 
              
             
               2 
              
             
             
             
               R 
              
             
               2 
              
             
            
           
          
         
        
       
         \begin{aligned} \|\hat{\mathbf{w}}_k\|^2 &= \|\hat{\mathbf{w}}_{k-1}\|^2 + 2\eta y_i \left(\hat{\mathbf{w}}_{k-1}\cdot \hat{\mathbf{x}}_i\right) + \eta^2 y_i^2 \|\hat{\mathbf{x}}_i\|^2\\ &= \|\hat{\mathbf{w}}_{k-1}\|^2 + 2\eta y_i \left(\hat{\mathbf{w}}_{k-1}\cdot \hat{\mathbf{x}}_i\right) + \eta^2 \|\hat{\mathbf{x}}_i\|^2\\ &\le \|\hat{\mathbf{w}}_{k-1}\|^2 + \eta^2 \|\hat{\mathbf{x}}_i\|^2\\ &\le \|\hat{\mathbf{w}}_{k-1}\|^2 + \eta^2 R^2\\ &\le k \eta^2 R^2 \end{aligned} 
        
       
     ∥w^k∥2=∥w^k−1∥2+2ηyi(w^k−1⋅x^i)+η2yi2∥x^i∥2=∥w^k−1∥2+2ηyi(w^k−1⋅x^i)+η2∥x^i∥2≤∥w^k−1∥2+η2∥x^i∥2≤∥w^k−1∥2+η2R2≤kη2R2
 因此
  
      
       
        
        
          k 
         
        
          η 
         
        
          γ 
         
        
          ≤ 
         
         
          
          
            w 
           
          
            ^ 
           
          
         
           k 
          
         
        
          ⋅ 
         
         
          
          
            w 
           
          
            ^ 
           
          
          
          
            o 
           
          
            p 
           
          
            t 
           
          
         
        
          ≤ 
         
        
          ∥ 
         
         
          
          
            w 
           
          
            ^ 
           
          
         
           k 
          
         
        
          ∥ 
         
        
          ∥ 
         
         
          
          
            w 
           
          
            ^ 
           
          
          
          
            o 
           
          
            p 
           
          
            t 
           
          
         
        
          ∥ 
         
        
          = 
         
        
          ∥ 
         
         
          
          
            w 
           
          
            ^ 
           
          
         
           k 
          
         
        
          ∥ 
         
        
          ≤ 
         
         
         
           k 
          
         
        
          η 
         
        
          R 
         
        
       
         k\eta \gamma \le \hat{\mathbf{w}}_k \cdot \hat{\mathbf{w}}_{opt} \le \|\hat{\mathbf{w}}_k \|\| \hat{\mathbf{w}}_{opt}\|=\|\hat{\mathbf{w}}_k \|\le \sqrt{k} \eta R 
        
       
     kηγ≤w^k⋅w^opt≤∥w^k∥∥w^opt∥=∥w^k∥≤kηR
 因此
  
      
       
        
        
          k 
         
        
          ≤ 
         
         
          
          
            ( 
           
           
           
             R 
            
           
             γ 
            
           
          
            ) 
           
          
         
           2 
          
         
        
       
         k \le \left(\frac{R}{\gamma}\right)^2 
        
       
     k≤(γR)2
参考:
 统计学习方法(李航)
 https://www.cntofu.com/book/48/gan-zhi-xue-xi-ji.md
 https://zhuanlan.zhihu.com/p/361176523



















