Pytorch图像去噪实战(三十三):梯度累积训练大模型,小显存也能稳定训练大Batch
Pytorch图像去噪实战(三十三):梯度累积训练大模型,小显存也能稳定训练大Batch一、问题场景:显存太小,batch size只能设成1图像去噪模型越做越大后,显存问题会越来越明显。特别是训练:RGB UNetRestormerSwinIRDiffusion UNet大 patch 图像多尺度模型经常会遇到:CUDA out of memory最直接的做法是把 batch size 改小。但 batch size 太小会带来问题:loss 抖动明显梯度噪声大训练不稳定BatchNorm 统计不准指标提升慢如果显存不够,但又想获得更大的等效 batch,就可以使用:梯度累积 Gradient Accumulation。二、梯度累积是什么?普通训练:一个 batch -
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2581542.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!