小伙伴们中过奖么?
是不是都是 中奖绝缘体 呢?
今天我们就来聊一聊关于中奖的 概率 问题~
先思考两个问题
如果让你从规模为 N 的数据序列中,随机选取出 k 个不重复的数据,你会怎么做呢?
- 是不是很简单,知道了总数 N ,等概率随机选择 k 个即可,每个数据被选到的概率均为 k / N k/N k/N 。
问题变一下:那如果从始至终都不知道 N 的具体大小呢?也就是说,数据流长度 N 很大,数据会源源不断的到来,且 N 直到处理完所有数据之前都不可知。
如何在这样的情况下,随机选取 k 个数据,保证当前已经到来的前 i 个元素中每一个元素被选中的概率相等,均为 k / i k/i k/i ,当处理完所有数据结束时,概率自然就变为了 k / N k/N k/N 呢?
两者区别一句话总结:能否提前知道 总数据量 N 。
这就引出了今天要探讨的问题:蓄水池算法
蓄水池算法
在一个很大,未知总量的数据流中,抽取 k 个样本,并保证每个样本的选取概率都是 相等并随机 的。
算法思路
- 构建一个可容纳 k 个样本的数组容器。
- 当数据量不足 k 个时,全部选取放入数组中。
- 当数据量超过 k 个时(假设是第 i 个元素),以 k / i k/i k/i 的概率选择进入数组中,并以 1 / k 1/k 1/k 的概率随机替换掉数组中的一个样本元素。
- 无论样本数据 N 何时结束,均能保证所选元素概率均为 k / N k/N k/N 。
即:保证在动态情况下,已经到来的每个样本元素被选中的概率相等
证明


当 i ≤ k i≤k i≤k 时,前 m 个元素,每个被选到的概率均为 k / m k/m k/m 。

 当  
     
      
       
       
         i 
        
       
         > 
        
       
         k 
        
       
      
        i>k 
       
      
    i>k 时,前 m 个元素,每个被选到的概率也均为  
     
      
       
       
         k 
        
       
         / 
        
       
         m 
        
       
      
        k/m 
       
      
    k/m 。
由以上两种情况的证明,我们可以得出结论:
 
 每个元素被选到的概率均等,均为  
     
      
       
       
         k 
        
       
         / 
        
       
         N 
        
       
      
        k/N 
       
      
    k/N 。
以上我们证明了该方法的正确性:能够在未知数据量的情况下,依然保证在新元素到来时被选中的概率相等。
代码
public static class RandomBox {
    // 存放被选的元素数组
    private int[] arr;
    // 抽取 k 个样本
    private int k;
    // 目前到达的样本总数
    private int m;
    // 初始化
    public RandomBox(int capacity) {
        arr = new int[capacity];        
        k = capacity;        
        m = 0;
    }
    // 等概率随机 1 ~ max 之间的一个数
    private int rand(int max) {
        return (int) (Math.random() * max) + 1;
    }
    // 新到一个元素后,进行选择
    public void add(int num) {
        // 总量+1
        m++;
        // 没超过k时,直接选入
        if (m <= k) {
            arr[m - 1] = num;
        } else {
            // 以 k/i 的概率选择进入数组
            if (rand(m) <= k) {
                // 随机替换掉其中一个元素,概率 1/k
                arr[rand(k) - 1] = num;
            }
        }
    }
    
}
实际意义
这个算法在现实中有什么意义呢?
 抽奖
参与活动中大奖:
今天所有参与活动的小伙伴都有几率中奖哦,今晚24:00整开奖~
假设设置了 10 个奖品,但不知道有多少个人会来参与活动,当 24:00 整时,要公布获奖名单。
此时,就可以选择“蓄水池算法”,活动结束后,遍历一遍结果数组 arr[10],所有在数组中的 10 个人就是最终的获奖者。每个人的中奖几率均为
10/今天参与活动的总人数,确保了活动的公平性。
你中过奖么😜
 ~ 点赞 ~ 关注 ~ 星标 ~ 不迷路 ~!!!
关注
 回复「ACM紫书」获取 ACM 算法书籍 ~
 回复「算法导论」获取 算法导论第3版 ~
点赞、转发
 让你的小伙伴们一起来学算法吧!!

















![[华为OD] C卷 5G网络 现需要在某城市进行5G网络建设,已经选取N个地点设置5G基站 200](https://img-blog.csdnimg.cn/direct/511e87d2d6d14efb919e1c43e1ae5312.png)
