【超分辨率专题】一种考量视频编码比特率优化能力的超分辨率基准

在这里插入图片描述

这是一个Benchmark，超分辨率+视频编码（2024）

专题介绍
一、研究背景
二、相关工作
- 2.1 SR的发展
- 2.2 SR benchmark的发展
三、Benchmark细节
- 3.1 数据集制作
- 3.2 模型选择
- 3.3 编解码器和压缩标准选择
- 3.4 Benchmark pipeline
- 3.5 质量评估和主观评价研究
四、实验论证
- 4.1 视频质量评估结果
- 4.2 比特率降低测试
- 4.3 视频质量度量指标评估
五、总结
- 个人思考

本文将对SR+Codec: a Benchmark of Super-Resolution for Video Compression Bitrate Reduction进行解读，正如标题所示，建立了新的benchmark。参考资料如下：
[1]. SR+Codec Benchmark 论文地址
[2]. Benchmark（课题组成果展示）地址

专题介绍

现在是数字化时代，图像与视频早已成为信息传递的关键载体。超分辨率（super resolution，SR）技术能够突破数据源的信息瓶颈，挖掘并增强低分辨率图像与视频的潜能，重塑更高品质的视觉内容，是底层视觉的核心研究方向之一。并且SR技术已有几十年的发展历程，方案也从最早的邻域插值迭代至现今的深度学习SR，但无论是经典算法还是AI算法，都在视觉应用领域内发挥着重要作用。

本专题旨在跟进和解读超分辨率技术的发展趋势，为读者分享有价值的超分辨率方法，欢迎一起探讨交流。

一、研究背景

截至2022年，视频流量占比超80%互联网流量且持续增长，视频压缩技术能有效降低数据带宽消耗，但压缩意味着有损失。而SR技术可通过恢复细节以增强视频质量，具备优化压缩的潜力；不过现有SR模型对强压缩视频恢复效果有限且易出瑕疵（如下图示例）。
在这里插入图片描述
那么针对效果问题该如何做改进呢？哎，这不是本文的目的，本文的核心工作是：

提出了一个新的针对视频压缩复原的SR模型评测的benchmark。
评估了5个视频编解码器和19个SR模型。考虑了不同压缩比特率下的测试情况，考虑了在编码前对视频做降分辨率的情况。得出了几个结论
提出了将客观度量和主观评价（5397名受试者）相结合的评判标准。重点关注细节恢复和主观感知的表现，以及消除压缩伪影问题的能力。并构建了一个与主观评价相关性高的简单度量组合。
量化分析了SR在视频质量恢复与比特率优化中的实际效能，为编解码器设计（如LCEVC）提供模型选型依据。

作者期望本工作能够为低带宽高清视频传输提供技术路径，推动SR在实时编解码场景中的应用。

“我们来定更好的标准，你们来做更好的算法。”

有些新入坑的朋友可能会想，啥是benchmark呢？
benchmark是一种标准化的测试方法或数据集，用于衡量和比较不同算法或模型在特定任务上的性能。它提供了一种客观的评估标准，帮助研究人员和开发者了解他们的算法或模型在实际应用中的表现。根据类型划分，包括了数据集基准，任务基准，性能指标基准。

二、相关工作

2.1 SR的发展

言归正传，作者捋了捋当前的SR技术发展。这里基于文章内容简单整理了一个表。

功能维度	时间冗余利用类视频 SR 方法	GAN 类 SR 方法	扩散模型类 SR 方法
核心思想	通过递归/双向传播对齐时空上下文	利用对抗训练生成逼真纹理	多步推理生成高质量结果
代表模型	RBPN [17], COMISR [27], BasicVSR++ [15], VRT [29], RVRT [30], Swin2SR [16]	ESRGAN [38], Real-ESRGAN [39]	diffusion SR系列 [33,35,41,51]
技术优势	双向递归扭曲（COMISR）、局部-全局注意力（Swin2SR）、跨片段预测（RVRT）	高阶退化建模（Real-ESRGAN）、增强感知损失	图像生成质量优异
局限性	对压缩伪影敏感（如 VRT 在强压缩场景失效）	过度锐化风险	推理步骤多（>100 步）→ 实时性差
适用场景	视频序列中运动连续性强（如手持抖动视频 [45]）	压缩图像纹理修复（如自然图像）	离线非实时任务（如存档修复）

鉴于设计用于压缩视频的SR模型数量有限，所以作者认为评估现有SR模型在压缩视频上的性能仍是一项关键任务。（因少故难，不忘督促各位学者赶紧研究）

另外，有些方案会对视频做降分辨率的操作，从而降低比特率，在解码端设计特殊的解码器将同时实现解码和SR。

在本次基准测试中，仅考虑编解码器和SR方法彼此独立的情况，评估不同编解码器和SR方法如何结合在一起最佳。

2.2 SR benchmark的发展

其实关于SR的benchmark已有很多，本文更加聚焦于SR与Codec相结合。当然，前两年也有类似的benchmark

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video
AIM 2022 Challenge on Super-Resolution of Compressed Image and Video

But！本项工作做了几个点的改进，采用了更广泛的视频质量度量和更多的视频编解码器。还做了不同SR对优化比特率能力的测试。

特地去看了下NTIRE2022，编码仅采用了HEVC。评价指标仅采用了PSNR，确实单一。同时建立了数据集LDV2.0。而AIM2022中关于视频压缩的超分挑战规则跟NTIRE2022中是一样的，只是将LDV数据集升级至3.0，新增了30个4K视频（来自youtube）。

博主对比了一下LDV2.0和LDV3.0的描述，基本上就是ctrl+c和ctrl+v，仅仅是数据量上增加了一些。（那为何要在同一年搞两次类似的挑战？难以理解） LDV1.0-3.0的数据集路径https://github.com/RenYang-home/LDV_ dataset，感兴趣的可以去看下。

三、Benchmark细节

3.1 数据集制作

作者没有考虑沿用LDV系列，而是自己搜集制作。为了保证基准数据集足够多样化，从多个来源收集了1920x1080的视频，包括：

视频网站片段：从视频网站截取了50个序列，包括real world和动画，并用VQMT将数据拆分成多个场景类型。
相机实拍：用佳能EOS 7D去拍摄室内室外场景，保证亮度和清晰度较为合适，共20个室内素材和30个室外素材，包含了目标运行和相机水平运动的两种情况。（大家可以思考下：这两种运动的区别是什么，为什么要区分？）
游戏视频片段，截取了20个片段，包括的2D和3D游戏视频。

然后获取了每个视频的特征，包括google时空特征，fps，颜色和最大face数量。基于这些特征，用k-means进行聚类，分成20个簇，每个簇选择一个视频，将其称为源视频。如下图所示。

在这里插入图片描述

这里有个新词汇，Google Spatial and Temporal features（google时空特征），其实就是空间复杂度和时间复杂度，前者用I帧的编码比特来计算，后者用P帧的编码比特来计算。（详情可参考引文《YouTube UGC dataset for video compression research》）

作者为了保证重要细节在降尺度和压缩后不完全丢失，只考虑了空间和时间复杂度低的视频，且没有很重的模糊和噪声。还表示相机运动有助于SR算法利用帧间信息做恢复。

拍脑袋想，所谓空间复杂度低就是没有很丰富的细节纹理，时间复杂度低就是没有大范围的剧烈运动。
为啥这么选？因为丰富的细节纹理压缩后损失明显，难以复原，也就很难体现SR的效果，那岂不是等于白评估。

3.2 模型选择

数据标准搞定了，模型怎么选？

作者从细节复原和感知质量提升这两个维度评估和考虑，排除了一些类似的方案，选择了19种模型，包括BasicVSR++，COMISR，DBVSR，EGVSR，LGFN，RBPN，Real-ESRGAN，RealSR，RSDN，SOF-VSR-BD，SOF-VSR-BI，SwinIR，TMNet，VRT，RVRT，IART，AnimeSR，Topaz Video AI 和 bicubic插值。 均采用原作者的预训练权重。

等等，里面怎么还有图像超分算法呢？原来是作者认为高质量视频SR模型稀缺，所以加入了图像SR一起作为比较。

3.3 编解码器和压缩标准选择

作者选择5种编码器，突出一个丰富且全面。

在这里插入图片描述

3.4 Benchmark pipeline

benchmark pipeline如下图所示。
在这里插入图片描述

先用FFmpeg将源视频降分辨率至480x270，用双三次选型。
选用0.6、1.0和2 Mbps的比特率对低分辨率视频做压缩。（客观评价时还增加了0.1，0.3，4.0Mbps的压缩档位）
编码器均采用了medium配置（应该理解为中等质量）。
压缩后的视频使用FFmpeg对PNG序列进行转码，作为SR模型输入。
将图像SR模型单独应用于每一帧；视频SR模型按照正确的顺序接收到包含帧的目录路径。
测试4x放大的效果，部分模型只支持2x，这种情况就处理2次。

说实话，图像SR会吃亏一些（缺少时域维度信息），个人感觉缺乏点严谨性，要么就图像SR相互对比，视频SR相互对比。

3.5 质量评估和主观评价研究

客观评价指标有：PSNR，MS-SSIM，VMAF，LPIPS，MDTVSFA（唯一的无参考）和ERQA。主要考虑了全参考指标，优先关注细节恢复，而不是感知质量。

主观评价采用了众包评价（找一堆不相干的人来评估）。由于在整个画面中，细节丢失和压缩伪影可能不容易被注意到，因此改为对剪裁块做评估。裁剪区域则是通过计算视频的显著性区域来确定。为了让评估者在屏幕上能够更好地进行比较，他们将剪裁的分辨率设置为480×270。这种方法使得评估者能够更清晰地观察到细节和压缩伪影，从而更准确地比较不同超分辨率模型的效果。除此之外，用对应的裁剪块计算客观指标，以确定客观指标与主观评分的相关性。

具体主观评价过程是随机给出两个SR模型的一对视频，让评价者选择看起来更真实、压缩伪影更少的视频（“不可区分”也是选择）。

那么由于担心有些人浑水摸鱼，睁眼说瞎话。还很机智地设置了3个验证性问题。还真筛选出了265位摸鱼侠（剔除了）。最后用Bradley-Terry模型计算最终的主观分数。（共120316个评估结果）