隐式神经表示做超分:Local Texture Estimator for Implicit Representation Function

news2025/7/7 22:48:47

文章目录

    • 1. Local Texture Estimator for Implicit Representation Function
      • 1. 通过隐式神经网络表示方法 实现 超分辨率。
      • 2. 在编码器和解码器之间作者引入一个 local texture estimator
      • 3. 代码分析
        • 整体框架
        • 生成图像特征,编码器是一个常规的卷积网络,文中使用esdr,rdn, swinIR 等
        • local texture estimator
      • 4. 网络数据的准备,网络的输入
      • 5. 结果

1. Local Texture Estimator for Implicit Representation Function

1. 通过隐式神经网络表示方法 实现 超分辨率。

一个典型的隐式表示方法作超分:隐式体现在 不是 直接拟合图像,二十首先提取特征,再根据特征估计目标

在这里插入图片描述

在这里插入图片描述

z z z 是encoder的输出,可以理解为提取的图像特征
x x x 是输入的坐标点映射到LR图像中,浮点类型, x j x_j xj 是周围的4个点
f θ f_\theta fθ 是解码器,本文解码器是一个MLP

可以理解为,输入一个坐标,利用 1)最近的4个点的特征 z j z_j zj 和 2)与最近4个点的 距离 x − x j x-x_j xxj
得到解码后的值,进行双线性插值。如下图所示

在这里插入图片描述

2. 在编码器和解码器之间作者引入一个 local texture estimator

因此公式变为

在这里插入图片描述

h φ h_\varphi hφ 表示局部纹理估计,下图红色区域看起来复杂
其实就是下面的公式 其中 $ F, A, h_p©$ 分别表示 幅度,频率,相位
其中相位的输入是网格的长度 cell size

在这里插入图片描述

在这里插入图片描述

3. 代码分析

整体框架

    def forward(self, inp, coord, cell):
        self.gen_feat(inp)  # 生成特征
        return self.query_rgb(coord, cell) # 检索值

生成图像特征,编码器是一个常规的卷积网络,文中使用esdr,rdn, swinIR 等

feat 各通过一个卷积得到 coeff, freqq ,即幅度和频率

    def gen_feat(self, inp):
        self.inp = inp
        self.feat_coord = make_coord(inp.shape[-2:], flatten=False).cuda() \
            .permute(2, 0, 1) \
            .unsqueeze(0).expand(inp.shape[0], 2, *inp.shape[-2:])
        
        self.feat = self.encoder(inp)
        self.coeff = self.coef(self.feat)
        self.freqq = self.freq(self.feat)
        return self.feat

local texture estimator

首先根据输入的坐标 找到 最近邻的4个坐标,利用了循环,目的是求
x − x j x-x_j xxj

vx_lst = [-1, 1]
vy_lst = [-1, 1]
eps_shift = 1e-6 

# field radius (global: [-1, 1])
rx = 2 / feat.shape[-2] / 2
ry = 2 / feat.shape[-1] / 2
for vx in vx_lst:
    for vy in vy_lst: # 周围的4个像素
        # prepare coefficient & frequency
        coord_ = coord.clone()
        coord_[:, :, 0] += vx * rx + eps_shift
        coord_[:, :, 1] += vy * ry + eps_shift
        coord_.clamp_(-1 + 1e-6, 1 - 1e-6)


接下来,就是根据 幅度,频率,相位得到 傅里叶表示,后续会输入 解码器
代码实现下面的公式
在这里插入图片描述

q_coef = F.grid_sample(
        coef, coord_.flip(-1).unsqueeze(1),
        mode='nearest', align_corners=False)[:, :, 0, :] \
        .permute(0, 2, 1)
q_freq = F.grid_sample(
    freq, coord_.flip(-1).unsqueeze(1),
    mode='nearest', align_corners=False)[:, :, 0, :] \
    .permute(0, 2, 1)
q_coord = F.grid_sample(
    feat_coord, coord_.flip(-1).unsqueeze(1),
    mode='nearest', align_corners=False)[:, :, 0, :] \
    .permute(0, 2, 1)
rel_coord = coord - q_coord # x - xj
rel_coord[:, :, 0] *= feat.shape[-2]
rel_coord[:, :, 1] *= feat.shape[-1]

# prepare cell
rel_cell = cell.clone()
rel_cell[:, :, 0] *= feat.shape[-2]
rel_cell[:, :, 1] *= feat.shape[-1]

# basis generation
bs, q = coord.shape[:2]
q_freq = torch.stack(torch.split(q_freq, 2, dim=-1), dim=-1)
q_freq = torch.mul(q_freq, rel_coord.unsqueeze(-1))
q_freq = torch.sum(q_freq, dim=-2)
q_freq += self.phase(rel_cell.view((bs * q, -1))).view(bs, q, -1)
q_freq = torch.cat((torch.cos(np.pi*q_freq), torch.sin(np.pi*q_freq)), dim=-1)

inp = torch.mul(q_coef, q_freq)            

接下来解码器是一个mlp网络

pred = self.imnet(inp.contiguous().view(bs * q, -1)).view(bs, q, -1)

双线性插值得到网络的结果, areas是双线性插值的系数

for pred, area in zip(preds, areas):
    ret = ret + pred * (area / tot_area).unsqueeze(-1)
        

将上面的结果,与双线性插值的 upscale LR 相加, 得到最后的结果,因此解码器输出的可以当作是
对低质量上采样的一个优化。

ret += F.grid_sample(self.inp, coord.flip(-1).unsqueeze(1), mode='bilinear',\
                      padding_mode='border', align_corners=False)[:, :, 0, :] \
                      .permute(0, 2, 1)

4. 网络数据的准备,网络的输入

利用下采样的得到 LR 图像

@register('sr-implicit-downsampled')
class SRImplicitDownsampled(Dataset):

    def __init__(self, dataset, inp_size=None, scale_min=1, scale_max=None,
                 augment=False, sample_q=None):
        self.dataset = dataset
        self.inp_size = inp_size
        self.scale_min = scale_min
        if scale_max is None:
            scale_max = scale_min
        self.scale_max = scale_max
        self.augment = augment
        self.sample_q = sample_q

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        img = self.dataset[idx]
        s = random.uniform(self.scale_min, self.scale_max)

        if self.inp_size is None:
            h_lr = math.floor(img.shape[-2] / s + 1e-9)
            w_lr = math.floor(img.shape[-1] / s + 1e-9)
            img = img[:, :round(h_lr * s), :round(w_lr * s)] # assume round int
            img_down = resize_fn(img, (h_lr, w_lr))
            crop_lr, crop_hr = img_down, img
        else:
            w_lr = self.inp_size
            w_hr = round(w_lr * s)
            x0 = random.randint(0, img.shape[-2] - w_hr)
            y0 = random.randint(0, img.shape[-1] - w_hr)
            crop_hr = img[:, x0: x0 + w_hr, y0: y0 + w_hr]
            crop_lr = resize_fn(crop_hr, w_lr)

        if self.augment:
            hflip = random.random() < 0.5
            vflip = random.random() < 0.5
            dflip = random.random() < 0.5

            def augment(x):
                if hflip:
                    x = x.flip(-2)
                if vflip:
                    x = x.flip(-1)
                if dflip:
                    x = x.transpose(-2, -1)
                return x

            crop_lr = augment(crop_lr)
            crop_hr = augment(crop_hr)

        hr_coord, hr_rgb = to_pixel_samples(crop_hr.contiguous())

        if self.sample_q is not None:
            sample_lst = np.random.choice(
                len(hr_coord), self.sample_q, replace=False)
            hr_coord = hr_coord[sample_lst]
            hr_rgb = hr_rgb[sample_lst]

        cell = torch.ones_like(hr_coord)
        cell[:, 0] *= 2 / crop_hr.shape[-2]
        cell[:, 1] *= 2 / crop_hr.shape[-1]

        return {
            'inp': crop_lr,
            'coord': hr_coord,
            'cell': cell,
            'gt': hr_rgb
        }

5. 结果

主要与meta-SR 和 LIIF进行比较,结果如下:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/9379.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3【生命周期讲解-详】

一、通过配置项的形式使用生命周期钩子 父组件&#xff1a; <template><button click"isShowDiv!isShowDiv">切换显示隐藏</button><Test v-if"isShowDiv"></Test> </template><script> import Test from ./…

怎么查看LinkedIn领英号用了多久?

怎么查看LinkedIn领英号用了多久&#xff1f; 1.第一步&#xff0c;点击“我”&#xff0c;点击设置和隐私 2.第二步&#xff0c;点击“数据隐私”&#xff0c;再点击“管理您的资料和活动” 3.往更早的时间去翻找&#xff0c;最早的就是注册时间 LinkedIn领英有什么开发…

Appium学习日记(三)——Windows系统测试桌面应用

Appium学习日记&#xff08;三&#xff09;——Windows系统测试桌面应用 一、环境搭建 1-1、WinAppDriver环境搭建 &#xff08;1&#xff09;开启开发者选项中的“开发人员模式” &#xff08;2&#xff09;Windows sdk下载安装 下载地址&#xff1a;https://developer.mi…

网络编程基础与套接字

&#x1f389;&#x1f389;&#x1f389;写在前面&#xff1a; 博主主页&#xff1a;&#x1f339;&#x1f339;&#x1f339;戳一戳&#xff0c;欢迎大佬指点&#xff01; 目标梦想&#xff1a;进大厂&#xff0c;立志成为一个牛掰的Java程序猿&#xff0c;虽然现在还是一个…

一次 G1 堆大小不均问题的排查及解决

现象 生产服务中&#xff0c;存在部分服务在 JVM 参数、POD 规格、物理机规格 一致&#xff0c;负载流量差异不大的情况下&#xff0c;出现在内存使用上差异较大的情况。下面是一些基本信息的收集和整理。 JVM 参数 -XX:UseG1GC -XX:MaxGCPauseMillis200 -XX:ParallelGCThre…

网络爬虫是什么?怎么学python爬虫

网络爬虫又称网络蜘蛛、网络机器人&#xff0c;它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页&#xff0c;并将所需要的数据抓取下来。通过对抓取的数据进行处理&#xff0c;从而提取出有价值的信息。 认识爬虫 我们所熟悉的一系列…

【Linux操作系统】crontab设置自动运行脚本

文章目录1 介绍2 修改系统时区3. 设置crontab定时任务3.1 相关命令3.2 自动运行shell脚本3.3 Crontab命令在线验证工具&#xff1a;3.4 Crontab日志路径1 介绍 最近要在linux机器上做量化策略&#xff0c;目前需要每天爬取一些数据&#xff0c;于是就写了一个python的策略放到…

【计算机硬件组成】基础知识(必备)

一、计算机硬件组成 ​ 从外观上来看&#xff0c;微型计算机主要包括CPU、主板、硬盘、内存、显卡、鼠标、键盘、机箱、电源、光驱。 我们就来重点说一说其中我们平时最耳目能详的&#xff1a;CPU、主板、硬盘、内存这些硬件。 1&#xff0c;CPU ​ 也叫中央处理器&#xf…

Linux安装MongoDB(简单详细)

目录MongoDB 安装环境1、下载 MongoDB 的linux安装包2、上传 MongoDB 安装包到linux系统中&#xff1a;3、解压 MongoDB 安装包4、创建 MongoDB 必要目录5、移动 MongoDB 安装目录6、设置 MongoDB 环境变量7、添加 MongoDB 配置文件8、启动和关闭 MongoDB启动报错的解决&#x…

【Java 数据结构】双向链表

篮球哥温馨提示&#xff1a;编程的同时不要忘记锻炼哦&#xff01;圆圆的脑袋&#xff0c;大大耳朵&#xff0c;天天敲代码&#xff0c;找找找bug 目录 1、什么是双向链表 2、实现一个双向链表 2.1 实现前的约定 2.2 addFirst 方法 2.3 addLast 方法 2.4 addIndex 方法…

怎么就敢用NodeJS写千万级别的服务后端

前言&#xff1a;NodeJS真的是玩具吗&#xff1f;真有人敢用这个玩具来写后端服务&#xff0c;它能支撑成一个千万级别的用户量级吗&#xff1f;怎么就带着我的团队稀里糊涂把这事而且做成。这篇文章将分享这次项目的并发实践经验。 一、项目背景 老板说&#xff1a;公司要搞战…

【K8S系列】第七讲:有状态服务 VS 无状态服务

目录 序言&#xff1a; 1.无状态服务介绍 2 有状态服务介绍 2.1 稳定的网络标识 2.2 稳定持久化存储 3 总结 序言&#xff1a; 昨天有位大佬&#xff0c;问这个问题 ……………………………………………… 决定学习之后&#xff0c;有了这篇文章. 1.无状态服务介绍 1.数…

CSS中clip-path、white-space使用

clip-path clip-path属性可以创建一个只有元素的部分区域可以显示的剪切区域、之前大部分都是使用 overflow: hidden border-radous 来实现一些布局 使用 clip-path 可以按需更简便的完成。 clip-path: polygon 多边形显示 里面输入坐标值 左上角为原点&#xff0c;右下角…

工程师新红利,我国预计到2025年培养20万名这类人才

前 言 近段时间&#xff0c;受到众所周知的事件影响&#xff0c;国外半导体企业掀起一股裁员潮。据《日经亚洲评论》报道&#xff0c;当外资公司正在收缩中国业务时&#xff0c;中国科技企业借此正竭力争夺外资企业中的成熟工程师。这足以说明一点&#xff0c;国内对成熟工程…

三剑客之 grep

目录基本参数正则表达式本文参考文献&#xff1a;GNU Grep 3.8 grep 是一个在 UNIX 上的命令行工具&#xff0c;它通过给定的模式&#xff08;pattern&#xff09;来搜索一个输入文件&#xff0c;并输出匹配到这些模式的内容 grep 于1974年公开&#xff0c;是文本三剑客中最早…

ROS总结理解

机器人操作系统入门_中科院软件所-重德智能机器人联合研究中心_中国大学MOOC(慕课) 可以参考视频学习 目录 .1ROS版本 .2 ROS架构 .3 ROS与IDE安装 .4 Catkin与工作空间 5.ROS的Package结构 6.ROS的常用指令 7.Metapackage 8.Master和Node .9 Topic和msg .10 Servic…

css 改变下划线长度,伪元素模拟border-bottom

要实现文字下方下划线 1 border-bottom配合width <html><head><style>p {border-bottom: 1px solid red;}</style> </head><body><p>选中内容</p> </body></html>直接设置border-bottom&#xff0c;会由于p标签…

vue3使用element-plus

1、下载包 npm install element-plus --save 2、引入 全局引入挂载&#xff1a;引入记得有css文件&#xff08;下载不下来可能是项目正在运行&#xff0c;先关掉&#xff09; import { createApp } from vue import App from ./App.vue import ElementPlus from element-plus …

MySQL 主从复制

现在我们的应用基本都往高性能的方向发展&#xff0c;各种语言都开始推出一些多进程和分布式的框架&#xff0c;其目的就是为了能够做到一个高性能的应用。包括会使用各种MQ和缓存的中间件&#xff0c;其实使用这些中间件的最终目的都是为了能够缓解数据库的压力&#xff0c;数…

下载离线地图地形数据库(3D离线地图开发)

下载离线地图地形数据库&#xff08;3D离线地图开发&#xff09; 发布时间&#xff1a;2020-03-03 版权&#xff1a; 离线地形&#xff1a;是用来表示地表高低起伏的一种三维地形数据库&#xff0c;有了这个地形数据&#xff0c;才能真实的反应出地球表面的高低起伏状态&#…