模型部署需要考虑的性能指标和模型部署的步骤
文章目录模型性能相关性能指标roofline model注意点模型部署相关量化量化里重要的细节量化映射粒度校准PTQQAT模型性能相关性能指标可以分为Memory bandwidth和compute bandwidth模型里面优化目标是让计算峰值靠近compute bandwidth让吞吐量靠近Memory bandwidth此外模型还有计算量参数量访存量roofline model这里提出了一种性能优化的模型。该模型提出了一个评价模型性能的指标计算密度可以用带宽和峰值参数算出计算密度找到能够性能优化的方面注意点硬件指标不能完全衡量模型性能rrt对模型的优化有限3.对cuda core和tensor core的使用4.不能忽略前处理和后处理的overhead额外开销5.使用性能分析工具查看benchmark和profiling找到优化的方向模型部署相关量化通过减少模型的计算精度从而减少模型整体计算量的一种方法。一般针对激活值和权重进行量化所以一般会说对cnv和linear这些计算密集算子进行量化。由于模型越来越复杂希望减少模型的计算量和压缩模型同时希望在量化后的模型精度损失尽量少。量化里重要的细节量化映射但是对于不同的数据分布同一种tatio和distance对原数据的损失不同所以要根据原数据的分布合理的设计ratio和distance两种量化方法对称量化和非对称量化粒度校准PTQQAT
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2433508.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!