《CVPR2025-DEIM创新改进项目实战:从原理到部署的深度学习优化全攻略》004、DEIM数学基础:注意力机制与特征重标定的统一框架
CVPR2025-DEIM创新改进项目实战:从原理到部署的深度学习优化全攻略004、DEIM数学基础:注意力机制与特征重标定的统一框架一、从一次诡异的梯度爆炸说起去年秋天调一个轻量级检测模型,在T4上跑得好好的,换到Jetson Orin上就炸了——loss直接飞到NaN。查了三天,最后定位到是SE模块的sigmoid输出在某些极端激活值下溢出了。当时我盯着那行y = x * torch.sigmoid(se(x)),突然意识到一个问题:注意力机制和特征重标定,本质上是不是在干同一件事?只是数学表达上绕了个弯子?这个疑问直接催生了DEIM(Dynamic Efficient Interaction Module)的设计思路。今天这篇笔记,我们就从数学底层把这两件事掰开揉碎,看看它们到底怎么统一到一个框架里。二、注意力机制的数学本质:不是“关注”,是“加权”很多人讲注意力机制喜欢用“让模型关注重要区域”这种比喻,但作为搞嵌入式部署的人,我更愿意把它看作一种可学习的、输入依赖的加权操作。标准的Scaled Dot-Product Attention:Attention(Q,K,V) = softmax(QK^T / sqrt(d)) V拆开看,核心就两步:计算相似度矩阵:S = QK^T / sqrt(
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2627054.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!