Learning Continuous Image Representation with Local Implicit Image Function

news2026/2/21 16:47:27

CVPR2021
https://github.com/yinboc/liif

问题引入

图像普遍都是使用像素来表示的，而现实世界是连续的，所以本文借鉴3D中neural implicit representation的思想，以连续的方式表示图像；
模型输入坐标值和坐标附近的特征，得到该坐标处的像素值，而坐标是连续的，从而得以连续的表示图像；
因为连续的特性，使得可以以任意scale来完成超分辨率的任务；

方法

本文中一张连续图片 $I^{(i)}$ 由2d的feature map $M^{(i)}\in \mathbb{R}^{H\times W\times D}$ 和decoding function $f_\theta$ 组成，其中 $f_\theta(z,x)$ ， $s$ 表示像素值， $z$ 表示某坐标的feature vector， $x$ 表示坐标，对于某点的连续图像上指定坐标点 $x_q$ 的像素值的求取分两种情况：
– 没有local ensemble， $I^{(i)}(x_q) = f_\theta(z^*,x_q-v^*)$ ，其中 $z^*$ 表示离所求点最近的feature vector， $v^*$ 是对应的坐标；
– 有local ensemble，主要是上面那种求解方法会导致对于求解的点对应的latent code vector在中间线突变的情况，所以采取的类似于差值的操作： $I^{(i)}(x_q) = \sum_{t\in\{00,01,10,11\}}\frac{S_t}{S}\cdot f_\theta(z^*,x_q-v^*)$ ，也就是距离所求点的左上、左下、右上、右下四个点求像素值然后做加权和，其权值是所求点和当前点所围矩形的对角矩形的面积，权值进行了归一化，这样就是距离所求点越近的点的权重越大；下面两点式对模型的两点补充；
为了丰富latent code包含的信息，进行了feature unfolding的操作，使得 $M^{(i)}\rightarrow \widehat{M}^{(i)}$ ，现在的latent code是原来latent code $3\times 3$ 范围内的latent code的拼接： $\widehat{M}^{(i)}_{jk} = Concat(\{{M}^{(i)}_{j+l,k+m}\}_{l,m\in \{-1,0,1\}})$ ；边缘补0；
在预测某个坐标点的像素值的时候，只给定坐标值，此时忽略了像素的尺寸，所以还加上cell decoding操作，将原来的decoding操作变为 $s = f_{cell}(z,[x,c])$
模型的训练：首先有一张高分的图片，作为gt，得到的有 $x_{hr},s_{hr}$ ，然后随机选择一个scale，对高分图片进行降采样得到模型的输入；模型包含两部分，encoder $E_\psi$ ，将降采样之后的图片编码得到其LIIF表示，还有是 $f_\theta$ 是一个mlp；有了坐标 $x_{hr}$ 和latent code之后经过 $f_\theta$ 得到预测的像素值，和真实的像素值计算损失；

实验

数据集：训练（DIV2K dataset），评测（DIV2K dataset，Set5, Set14, B100, Urban100）；
评测的时候除了评测scale 1x-4x的，还评测了训练中没有的6x-30x，主要对比的方法是MetaSR；
实现细节：输入固定为 $48\times 48$ ，假设bs为 $B$ ，那么采样 $B$ 个scale $r_{1\sim B}$ ，之后再原高分图上crop出 $\{48r_i\times 48r_i\}^B_{i=1}$ 个对应的高分图像作为gt，对于bs的每一项，都采样 $48^2$ 个sample来计算损失；