人工智能篇---概率论、线性代数和深度学习
概率论、线性代数和深度学习三者构成了现代人工智能的“铁三角”。它们并非孤立学科而是在深层逻辑上相互依赖、彼此渗透。一、线性代数深度学习的“语法”如果把深度学习看作一门语言线性代数就是它的基本语法规则。1. 数据是张量灰度图像是2阶张量矩阵彩色图像是3阶张量视频是4阶。线性代数提供了维度、转置、切片、广播等操作。2. 神经网络层就是线性变换全连接层的本质yWxbyWxb这就是仿射变换。多层堆叠就是多次矩阵乘法的复合。3. 卷积是特殊的线性算子卷积运算可以写成Toeplitz矩阵乘法。CNN用局部连接和权值共享但底层仍是线性变换。4. 注意力机制是矩阵乘法Self-Attention的核心计算过程就是矩阵乘法 → 缩放 → 归一化 → 再乘。5. 降维与分解PCA主成分分析依赖SVD奇异值分解权重矩阵的低秩分解可以压缩模型6. 反向传播是雅可比矩阵的链式相乘梯度传播本质上是雅可比矩阵的转置相乘。线性代数的求导规则如矩阵求导贯穿整个反向传播过程。二、概率论深度学习的“语义”如果说线性代数给了深度学习骨架那么概率论就赋予它处理不确定性的能力。1. 建模不确定性世界充满噪声概率论让模型能从不确定中学习规律——不是记住“猫长什么样”而是学到“什么样的像素排列大概率是猫”。2. 损失函数的概率来源均方误差MSE等同于假设误差服从高斯分布下的极大似然估计交叉熵损失等同于假设标签服从类别分布下的极大似然估计选择损失函数本质上是在选择数据分布的假设3. Softmax输出概率分布神经网络的原始输出logits经过Softmax变成概率向量用于多分类决策衡量预测置信度计算交叉熵损失4. 正则化的概率解释L2正则化等价于权重服从高斯先验的贝叶斯推断Dropout可看作对子网络进行贝叶斯模型平均这些方法都是通过施加概率先验来防止过拟合5. 训练过程的概率视角随机梯度下降从训练分布中采样mini-batch数据增强是对输入空间进行概率扰动整个过程是在做经验风险最小化6. 生成模型概率顶峰VAE变分自编码器用变分推断学习隐变量分布Diffusion扩散模型先用正向马尔可夫链逐步加噪再学习逆向去噪过程GAN生成对抗网络博弈论框架下隐式学习数据分布三、三者的融合从表示到推理线性代数负责“表示”概率论负责“推理”深度学习把它们融合成强大的学习系统。概率线性代数随机矩阵理论解释神经网络权值谱分布高维概率浓度不等式、随机投影支撑大量现代方法协方差矩阵、精度矩阵在概率建模中至关重要融合实例贝叶斯神经网络权重不是单个数而是概率分布正向传播变成概率分布的线性变换归一化流用一系列可逆线性变换和激活函数把一个简单分布“流”成复杂分布注意力机制中的概率解释QKTQKT 做内积度量相似度Softmax转成注意力权重本质是用线性代数做核密度估计对比学习正样本对拉近、负样本对推远在高维单位球面上形成概率分布总结框图Mermaid三者的关系可以这样类比线性代数是骨骼架构概率论是血肉灵魂而深度学习则是让这副躯体学会运动的大脑。要深入理解深度学习缺一不可。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2575997.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!