AI_概率统计-2.常见分布
以下涵盖均匀分布、正态分布高斯分布、伯努利分布、二项分布、多项分布以及 Softmax 背后的分布思想。2. 常见分布核心目标掌握 AI 中高频使用的6种分布均匀、正态、伯努利、二项、多项、softmax对应分布理解每种分布的核心含义、适用场景能完成简单手工计算通过代码实现分布的生成与概率计算。重点掌握正态分布的中心极限定理、误差假设以及 Softmax 背后的分布思想为后续模型如线性回归、分类器的假设与推导奠定基础。说明知识点侧重“AI实战应用”不深究复杂的分布推导重点掌握“分布特点”“AI场景”“计算与实现”避免纯理论堆砌。2.1 均匀分布Uniform Distribution2.1.1 定义与参数均匀分布在某个区间内每个点被取到的概率密度相同。离散型均匀分布有限个等可能取值。概率质量函数P(Xx_i) \frac{1}{n}i1,2,\dots,n。连续型均匀分布记作 X \sim U(a, b)其中 a 为下限b 为上限。概率密度函数PDFf(x) \begin{cases} \frac{1}{b-a}, a \le x \le b \\ 0, \text{其他} \end{cases}期望E[X] \frac{ab}{2}方差\text{Var}(X) \frac{(b-a)^2}{12}记熟即可无需推导。在 AI 中的应用模型参数初始化如神经网络权重初始化避免权重过大或过小常用均匀分布如 [-0.1, 0.1]。随机抽样如数据集随机打乱、强化学习中的探索策略。无信息先验假设当对某个参数无先验认知时用均匀分布假设其概率。2.1.2 手工计算示例例1连续参数初始化区间为 [0, 0.2]求随机抽取一个参数 x 落在 [0.05, 0.15] 内的概率。解a0,b0.2f(x)\frac{1}{0.2}5P(0.05 \le x \le 0.15) (0.15-0.05) \times 5 0.5。例2离散掷一颗均匀骰子点数 X 服从离散均匀分布P(Xk)\frac{1}{6}, k1..6。求 P(X \le 3) \frac{3}{6}0.5。2.1.3 Python 代码示例import numpy as np import matplotlib.pyplot as plt from scipy.stats import uniform # 连续均匀分布 U(0,1) a, b 0, 1 x np.linspace(-0.2, 1.2, 500) pdf uniform.pdf(x, loca, scaleb-a) plt.plot(x, pdf, b-, linewidth2, labelfU({a},{b}) PDF) plt.fill_between(x, 0, pdf, where(x0.3)(x0.7), alpha0.3, colorred, labelP(0.3≤X≤0.7)) plt.title(连续均匀分布 U(0,1)) plt.xlabel(x) plt.ylabel(f(x)) plt.legend() plt.grid(alpha0.3) plt.show() # 模拟参数初始化区间 a_init, b_init 0, 0.2 samples uniform.rvs(loca_init, scaleb_init-a_init, size1000) prob_sim np.mean((samples 0.05) (samples 0.15)) print(fP(0.05≤x≤0.15) 模拟值: {prob_sim:.3f} (理论值 0.5))2.2 正态分布高斯分布—— 中心极限定理、误差假设2.2.1 定义与参数正态分布记作 X \sim N(\mu, \sigma^2)其中 \mu 为均值位置参数\sigma^2 为方差尺度参数\sigma为标准差。概率密度函数PDFf(x) \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad -\infty x \infty标准正态分布\mu0, \sigma^21记作 Z \sim N(0,1)PDF 简化为 f(x)\frac{1}{\sqrt{2\pi}}e^{-x^2/2}。核心性质钟形曲线关于 x\mu 对称。68-95-99.7法则约68%的数据落在 [\mu-\sigma, \mu\sigma]95%落在 [\mu-2\sigma, \mu2\sigma]99.7%落在 [\mu-3\sigma, \mu3\sigma]。2.2.2 关键延伸AI核心中心极限定理CLT当样本量足够大时多个独立随机变量的和或均值会趋近于正态分布与单个变量的分布无关。AI应用模型的预测误差、样本均值的分布均可通过中心极限定理近似为正态分布简化概率计算和模型推导。误差假设AI中线性回归、神经网络等模型常假设“模型预测误差服从正态分布”即 y f(x) \epsilon其中 \epsilon \sim N(0, \sigma^2)误差均值为0方差为 \sigma^2。该假设是最小二乘法的理论基础可通过极大似然估计推导模型参数。2.2.3 手工计算示例例1标准正态已知 X \sim N(0,1)求 P(-1 \le X \le 1)。解根据68-95-99.7法则\mu \pm \sigma 区间内的概率约为68.27%即 P(-1 \le X \le 1) \approx 0.6827。例2误差假设线性回归中误差 \epsilon \sim N(0, 0.04)\mu0\sigma0.2求误差的绝对值小于0.4的概率。解区间 [-0.4, 0.4] 对应 \mu \pm 2\sigma概率约为95.45%。例3中心极限定理掷一颗骰子100次求点数之和的近似分布。单次点数均值 \mu3.5方差 \sigma^2 \approx 2.917。和 S_{100} 近似 N(100\times3.5, 100\times2.917) N(350, 291.7)。2.2.4 Python 代码示例import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm # 标准正态分布 mu, sigma 0, 1 x np.linspace(-4, 4, 500) pdf norm.pdf(x, mu, sigma) plt.plot(x, pdf, b-, labelfN({mu},{sigma}^2)) plt.fill_between(x, 0, pdf, where(x-1.96)(x1.96), alpha0.3, colorgreen, label95% 置信区间) plt.title(标准正态分布) plt.xlabel(x) plt.ylabel(f(x)) plt.legend() plt.grid(alpha0.3) plt.show() # 模拟误差正态分布 mu_e, sigma_e 0, 0.2 samples norm.rvs(locmu_e, scalesigma_e, size1000) prob_sim np.mean(np.abs(samples) 0.4) print(fP(|ε|0.4) 模拟值: {prob_sim:.4f} (理论≈0.9545)) # 中心极限定理演示掷骰子和的分布 n_dice 30 n_trials 10000 sums [np.random.randint(1,7, n_dice).sum() for _ in range(n_trials)] plt.hist(sums, bins30, densityTrue, alpha0.7, label模拟和分布) mu_sum n_dice * 3.5 sigma_sum np.sqrt(n_dice * 2.91667) x_norm np.linspace(mu_sum - 4*sigma_sum, mu_sum 4*sigma_sum, 200) plt.plot(x_norm, norm.pdf(x_norm, mu_sum, sigma_sum), r-, label正态近似) plt.title(f{n_dice}颗骰子点数和的分布中心极限定理) plt.xlabel(和) plt.ylabel(密度) plt.legend() plt.show()2.3 伯努利分布Bernoulli Distribution2.3.1 定义与参数伯努利分布描述单次试验中只有两种结果成功/失败1/0的随机变量。参数成功概率 p \in [0,1]。概率质量函数PMFP(X1)p, \quad P(X0)1-p期望E[X]p方差\text{Var}(X)p(1-p)。在 AI 中的应用二分类任务的标签建模如样本标签为0/1。逻辑回归中模型输出 pP(Y1|X)伯努利分布描述预测的随机性。交叉熵损失函数正是伯努利分布的负对数似然。2.3.2 手工计算示例例二分类任务中模型预测样本为正类X1的概率 p0.8求负类概率、期望、方差。解P(X0)0.2E[X]0.8\text{Var}(X)0.8\times0.20.16。2.3.3 Python 代码示例from scipy.stats import bernoulli import numpy as np p 0.8 samples bernoulli.rvs(p, size1000) print(f模拟正类比例: {np.mean(samples):.3f} (理论 {p})) print(f期望: {bernoulli.mean(p)}, 方差: {bernoulli.var(p)})2.4 二项分布Binomial Distribution2.4.1 定义与参数二项分布描述n 次独立伯努利试验中成功次数的分布。参数试验次数 n每次成功概率 p。记作 X \sim B(n, p)。概率质量函数P(Xk) \binom{n}{k} p^k (1-p)^{n-k}, \quad k0,1,\dots,n期望E[X]np方差\text{Var}(X)np(1-p)。在 AI 中的应用多轮二分类预测的概率计算如 n 个样本中有 k 个被预测正确的概率。模型性能评估如 n 次预测中正确 k 次的概率。2.4.2 手工计算示例例模型准确率 p0.9预测 n10 个样本求恰好有8个正确的概率。解P(X8)\binom{10}{8} 0.9^8 0.1^2 45 \times 0.4305 \times 0.01 \approx 0.1937。2.4.3 Python 代码示例from scipy.stats import binom import numpy as np n, p, k 10, 0.9, 8 prob binom.pmf(k, n, p) print(fP(X{k}) {prob:.4f}) # 模拟 samples binom.rvs(n, p, size10000) print(f模拟比例: {np.mean(samples k):.4f})2.5 多项分布Multinomial Distribution2.5.1 定义与参数多项分布是二项分布的推广n 次独立试验每次试验有 K 种互斥结果概率分别为 p_1,\dots,p_K\sum p_i1。随机向量 \mathbf{X}(X_1,\dots,X_K) 表示每种结果出现的次数满足 \sum X_in。概率质量函数P(X_1n_1,\dots,X_Kn_K) \frac{n!}{n_1!\cdots n_K!} p_1^{n_1}\cdots p_K^{n_K}边缘分布X_i \sim B(n, p_i)但 X_i 之间不独立。在 AI 中的应用多分类任务的标签建模如样本标签为0/1/2。Softmax 输出层的概率分布基础。2.5.2 手工计算示例例三分类任务模型预测类别1、2、3的概率分别为 0.6,0.3,0.1预测 n5 个样本求恰好有3个类别1、1个类别2、1个类别3的概率。解P \frac{5!}{3!1!1!} \times 0.6^3 \times 0.3^1 \times 0.1^1 20 \times 0.216 \times 0.3 \times 0.1 0.1296。2.5.3 Python 代码示例from scipy.stats import multinomial import numpy as np n, p 5, [0.6, 0.3, 0.1] counts [3, 1, 1] prob multinomial.pmf(counts, n, p) print(fP(3,1,1) {prob:.4f}) # 模拟 samples multinomial.rvs(n, p, size1000) print(f模拟比例: {np.mean(np.all(samples counts, axis1)):.4f})2.6 Softmax 背后的分布思想分类输出的概率2.6.1 核心思想Softmax 并非一种独立的分布而是一种概率归一化方法其背后是多项分布思想——将模型输出的“未归一化得分”logits转化为“多分类的概率分布”满足多项分布的概率约束所有类别概率和为1。2.6.2 公式对于模型输出的 K 个得分 z_1,\dots,z_K第 i 个类别的概率为p_i \frac{e^{z_i}}{\sum_{j1}^K e^{z_j}}特性归一化\sum_{i1}^K p_i 1。指数放大放大得分差异便于区分类别。与多项分布的关联Softmax 输出的概率可视为多项分布中“单次试验”的各类别概率。2.6.3 手工计算示例三分类模型输出得分 z[2,1,0]计算 Softmax 概率e^2\approx7.389e^1\approx2.718e^01总和 \approx11.107。p_1\approx0.665p_2\approx0.245p_3\approx0.090和为1。2.6.4 Python 代码示例带数值稳定性import numpy as np def softmax(logits): exp_logits np.exp(logits - np.max(logits, axis-1, keepdimsTrue)) return exp_logits / np.sum(exp_logits, axis-1, keepdimsTrue) logits np.array([2, 1, 0]) probs softmax(logits) print(fSoftmax 概率: {np.round(probs, 3)}) print(f概率和: {np.sum(probs)})2.7 学习资料链接聚焦 AI 应用常见分布总结可汗学院中心极限定理直观解释3Blue1Brown伯努利、二项、多项分布Scipy 文档Softmax 与交叉熵损失CS231n 课程笔记正态分布 68-95-99.7 法则2.8 小结与学习建议分布参数AI 应用场景重要性均匀分布 U(a,b)a,b随机初始化、随机采样★★★正态分布 N(\mu,\sigma^2)\mu,\sigma误差假设、权重初始化、CLT★★★★★伯努利分布 Bern(p)p二分类标签★★★★★二项分布 B(n,p)n,pn次试验成功次数★★★多项分布 Mult(n,\mathbf{p})n,\mathbf{p}多分类、词袋模型★★★★Softmax归一化\mathbf{z}多分类输出概率★★★★★学习路径理解每个分布的核心参数和形状。手工计算简单概率加深记忆。运行 Python 代码观察分布的可视化形态。重点掌握正态分布与中心极限定理、误差假设关联和 Softmax多分类输出核心。注意在 AI 实践中概率分布主要用于建模数据生成过程、定义损失函数通过最大似然估计以及进行随机采样。不需要背诵复杂公式但需要知道“什么场景用什么分布”。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2566609.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!