cvpr论文学习《Generative Image Dynamics》
2024年cvpr最佳论文https://arxiv.org/pdf/2309.07906CVPR 2024的最佳论文《Generative Image Dynamics》提出了一种从单张静态图像生成逼真、连续运动视频的技术其核心在于将运动建模在频域并通过扩散模型进行预测。下面这个流程图概括了它的核心工作流程你可以先快速了解全貌flowchart TDA[输入静态图像] -- B{运动预测模块}B -- C(潜在扩散模型 LDM)C -- D[输出频谱体br每像素运动轨迹的频域表示]D -- E{基于图像的渲染模块}E -- F[逆傅里叶变换br频谱体→时域位移场]F -- G[多尺度特征提取与软光栅化]G -- H[图像合成网络]H -- I[输出动态视频帧]核心模块详解运动预测模块从图像到频谱体这个模块的目标是分析一张静态图片预测出图中每个像素点未来会如何运动。关键在于它不是在时域中直接预测每一帧的位移而是转换思路在频域中描述运动。频谱体Spectral Volume表示论文用傅里叶级数来描述运动。对于每个像素点其运动轨迹被转换为一组复数傅里叶系数即“频谱体” 。这基于一个观察自然界的振荡运动如风吹树叶大多由低频主导功率谱随频率升高呈指数衰减 。因此仅用前K16个频率分量就能有效捕捉大多数自然运动极大降低了计算量 。神经随机运动纹理的表示时域到频域的转换对于每个像素点p其在T个时间点上的运动轨迹即一系列二维位移向量F(p) {F₁(p), F₂(p), ..., F_T(p)}可以通过快速傅里叶变换FFT转换为频域表示即一组傅里叶系数S(p) {S_f₀(p), S_f₁(p), ..., S_f_{K-1}(p)} 。每个频率f_k对应的系数S_f_k(p)是一个复数需要4个标量来表示其在x和y方向上的振幅和相位信息 。频率自适应归一化Frequency Adaptive Normalization不同频率的傅里叶系数幅度差异巨大。直接训练扩散模型预测这些值会不稳定。解决方法是对每个频率的系数用其训练数据中的95th百分位数进行归一化并应用幂变换防止高频信息丢失 。频率协调去噪Frequency-coordinated Denoising扩散模型U-Net并非独立预测每个频率而是先预测单个频率切片然后通过交叉注意力机制协调所有K个频率的预测确保不同频带运动在时间上一致 。基于图像的渲染模块从运动到视频得到频谱体后需要将其转换回实际的视频帧。时域转换通过逆傅里叶变换将频谱体转换为一系列时域的2D运动位移场指明每个像素在不同时间点的移动方向与距离 2 3 。软光栅化Softmax Splatting直接根据位移场扭曲原图会产生空洞或重叠。该模块的解决方法是先从原图提取多尺度特征然后用预测的运动场对特征进行前向扭曲“光栅化”并采用运动幅度加权的softmax融合重叠像素最后通过一个图像合成网络解码为最终帧 1 。这能合成出时间连贯且视觉高质量的动画。 技术优势与创新点长期时间一致性在频域建模运动从根本上保证了生成的动画长期稳定、不漂移解决了自回归生成模型在长序列生成中常见的闪烁或失真问题 。数据与计算高效低频主导的特性使模型仅需预测少量频率系数即可表征长序列运动比逐帧生成视频的方法计算效率高很多 。强大的可控性与交互性频谱体可解释为图像空间的模态基能实现“拖动交互” 也方便通过调整系数振幅控制运动强度或通过插值制作慢动作效果 。 主要应用场景动态内容创作将静态风景、物品照片转化为无缝循环视频用于社交媒体、数字艺术或动态壁纸 。交互式媒体用户可通过拖动与图片元素互动提升教育、电商展示或数字娱乐体验 。视频编辑与增强为现有视频补帧或稳定运动或编辑生成的运动模式 。其他讲解。可以看源代码学习https://blog.csdn.net/amusi1994/article/details/133154255
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2447966.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!