每日学术速递3.8

news2025/7/18 15:11:35

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Unleashing Text-to-Image Diffusion Models for Visual Perception

标题:释放用于视觉感知的文本到图像扩散模型

作者:Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu

文章链接:https://arxiv.org/abs/2302.02814

项目代码:https://github.com/wl-zhao/VPD

摘要:

        扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。具体来说,我们使用适当的文本输入提示去噪解码器,并使用适配器改进文本特征,从而更好地与预训练阶段对齐,并使视觉内容与文本提示交互。我们还建议利用视觉特征和文本特征之间的交叉注意力图来提供明确的指导。与其他预训练方法相比,我们表明视觉语言预训练扩散模型可以使用所提出的 VPD 更快地适应下游视觉感知任务。对语义分割、参考图像分割和深度估计的大量实验证明了我们方法的有效性。值得注意的是,VPD 在 NYUv2 深度估计上达到 0.254 RMSE,在 RefCOCO-val 参考图像分割上达到 73.3% oIoU,在这两个基准上创造了新记录。

2.MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices

标题:MobileBrick:为移动设备上的 3D 重建搭建乐高积木

作者:Kejie Li, Jia-Wang Bian, Robert Castle, Philip H.S. Torr, Victor Adrian Prisacariu

文章链接:https://arxiv.org/abs/2303.01932

项目代码:http://code.active.vision/MobileBrick/

摘要:

        高质量的 3D 地面真实形状对于 3D 对象重建评估至关重要。然而,在现实中很难创建一个对象的复制品,甚至 3D 扫描仪生成的 3D 重建也存在导致评估偏差的伪影。为了解决这个问题,我们引入了一个使用移动设备捕获的新型多视图 RGBD 数据集,其中包括对 153 个具有不同 3D 结构集的对象模型的高精度 3D 地面实况注释。我们通过使用具有已知几何形状的乐高模型作为图像捕获的 3D 结构,在不依赖高端 3D 扫描仪的情况下获得精确的 3D 地面真实形状。在移动设备上捕获的高分辨率 RGB 图像和低分辨率深度图提供的独特数据模式,与精确的 3D 几何注释相结合,为未来研究高保真 3D 重建提供了独特的机会。此外,我们在所提出的数据集上评估了一系列 3D 重建算法。

Subjects: cs.RL

3.Preference Transformer: Modeling Human Preferences using Transformers for RL(ICLR 2023)

标题:Preference Transformer:使用 RL Transformers 模拟人类偏好

作者:Changyeon Kim, Jongjin Park, Jinwoo Shin, Honglak Lee, Pieter Abbeel, Kimin Lee

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://sites.google.com/view/preference-transformer

摘要:

        基于偏好的强化学习 (RL) 提供了一个框架来使用人类在两种行为之间的偏好来训练代理。然而,基于偏好的强化学习一直难以扩展,因为它需要大量的人类反馈来学习符合人类意图的奖励函数。在本文中,我们介绍了 Preference Transformer,这是一种使用转换器对人类偏好进行建模的神经架构。与假设人类判断基于对决策有同等贡献的马尔可夫奖励的先前方法不同,我们引入了一种基于非马尔可夫奖励加权和的新偏好模型。然后,我们使用堆叠因果和双向自注意层的转换器架构来设计所提出的偏好模型。我们证明 Preference Transformer 可以使用真实的人类偏好来解决各种控制任务,而之前的方法无法奏效。我们还表明,Preference Transformer 可以通过自动捕获人类决策中的时间依赖性来诱导明确指定的奖励并关注轨迹中的关键事件。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/395740.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【maven 学习记录】

maven 学习记录一、maven基础1. maven是什么2. maven的作用3. maven的下载安装4. maven仓库5. maven坐标6. 第一个maven项目 手工实现7. maven插件8. 依赖管理9. 生命周期二、maven进阶一、maven基础 1. maven是什么 maven的本质是一个项目管理工具,将项目开发和管…

mac电脑解决Error: command failed: npm install --loglevel error --legacy-peer-deps

使用vue create xxx创建vue3项目的时候报错。 解决步骤: 1.sudo npm cache clean --force 2.再次创建就可以成功 补充:网上搜到很多方法,都尝试失败,因为遇到需要打开.vuerc,.npmrc的情况,记录一下怎样找到文件 1. 尝…

xshell的复制ssh渠道和复制会话是什么意思

xshell的复制ssh渠道和复制会话是什么意思1、复制ssh渠道1.1、只打开一个标签页时1.2、复制ssh渠道后1.3、复制第2个ssh渠道后2、复制会话3、两个ssh进程分别复制ssh渠道4、总结1、复制ssh渠道 1.1、只打开一个标签页时 ssh进程有1个,pid是98959。用户是root、终端…

工业级64 位AM6231ASGGGAALW/AM6232ATCGGAALW【处理器】AM6234ATCGGAALW

工业级64 位AM6231ASGGGAALW/AM6232ATCGGAALW【处理器】AM6234ATCGGAALW说明:低成本的AM62x Sitara MPU系列应用处理器专为Linux 应用开发而设计。凭借可扩展的ArmCortex -A53性能和嵌入式功能,例如:双显示支持和3D图形加速,以及广泛的外围设…

Flutter-自定义图标

虽然Flutter有许多内置的icon图标,但是有些特殊功能的话,需要自定义图标或者需要在iconfont 阿里巴巴的图标库里找对应合适的图标。 第一步:在iconfont 阿里巴巴里搜索想要的图标并加入到购物车,点击下载代码后,会生成…

2023增加收入的最佳销售聊天机器人

哈佛大学的研究表明,快乐的客户花费更多。聊天机器人可以很大程度提高客人体验感,可以增加您的销售额。现在,快来get市场上最好的销售聊天机器人并增加您的收入! 一、什么是销售聊天机器人? 销售聊天机器人是一种自动…

使用 Wall 教你搭建 照片墙 和 视频墙

下载 Github:https://github.com/super-tongyao/wall 国内仓库(不推荐,只做加速访问,无编译包和发行版,以github仓库为准):https://gitee.com/Super_TongYao/wall 推荐github仓库,下载最新版…

演化算法:乌鸦搜索算法 (Crow Search Algorithm)

前言 如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。 在机器学习中,我们所要优化的问题很多时候难以求导,因此通常会采用一些演化算法(又称零…

C++——模板

文章目录1 泛型编程2 函数模板2.1 函数模板概念2.2 函数模板格式2.3 函数模板的实例化2.3.1 隐式实例化2.3.1.1 定义2.3.1.2 代码演示2.3.1.3 运行结果2.3.1.4 缺点2.3.2 显式实例化2.3.2.1 格式2.3.2.2 代码演示2.3.2.3 运行结果2.4 模板参数的匹配原则2.4.12.4.22.4.33 类模板…

并发编程的三大挑战之原子性及其解决方案

目录 一、原子性问题 1、带来原子性问题的原因 2、如何解决线程切换带来的原子问题 2.1、使用synchronized关键字来保证 2.2、使用CAS来保证原子性 2.3、使用lock锁来保证 一、原子性问题 1、带来原子性问题的原因 线程切换是带来原子的根本原因,java的并发程…

proteus光敏电阻电路的arduino仿真

虽然Fritzing0.9.10有了仿真的功能,但都是测试板,能够仿真的很有限,所以还是要借助proteus来仿真。这里,我们来实先一个简单的光明电阻的仿真电路。本篇博文,重点演示proteus仿真arduino光敏电阻,arduino采…

Kerberos 域委派攻击之基于资源的约束性委派

CSDN自动迁移博客文章注意区别:约束性委派 不能跨域进行委派,基于资源的约束性委派可以跨域和林如果约束性委派,必须拥有 SeEnableDelegationPrivilege 权限,该特权是敏感的,通常仅授予域管理员。为了使用户/资源更加独…

DDD领域驱动设计初探

DDD 强调领域模型要兼顾业务和技术两个视角。 我们怎么用一套系统化的方法,抽丝剥茧、一步一步地把需求落实到代码呢?咱们看看下面这张图,它表示了领域驱动设计中的主要流程。 领域驱动设计主要的开发流程你可以看到,在整个开发流…

IDEA 实现热部署(社区版)

前言 为什么要热部署? 开发环境下,我们经常对项目代码进行变动,如果每次都重新启动应用会浪费我们大量时间,为此就产生了热部署的方案,可以在不重启的情况下使用新代码。 热部署为了解决的问题有两个: 在开发的时候…

华为网工入门之eNSP小实验(6)--OSPF(一)基础概念及单区域配置

OSPF OSPF属于典型的链路状态路由协议链路状态路由协议的四个步骤: 1.相邻的建立邻居关系2.邻居间的链路间的状态信息(LSA)交互和同步LSDB(链路状态数据库)3.优选路径运算 (SPF算法计算)4.根据最优路径生成路由表项加载到路由表 目前针对ipv4协议使用的是OSPF Version 2(RFC23…

测试测开面试要知道的那些事01

列表与元组的区别列表是动态数组,它们可变且可以重设长度(改变其内部元素的个数)。元组是静态数组,它们不可变,且其内部数据一旦创建便无法改变。元组缓存于Python运行时环境,这意味着我们每次使用元组时无…

JAVA进阶 —— 集合进阶

目录 一、 双列集合 二、 Map 1. Map的常见API 2. Map的遍历方式 2.1 第一种遍历方式:键找值 2.2 第二种遍历方式:键值对 2.3 第三种遍历方式:Lambda表达式 三、 Map的三种实现类 1. HashMap 2. LinkedHashMap 3. TreeMap 3.1 练…

python智慧校园线上考试在线比赛答题系统平台源码redis

wx供重浩:创享日记 对话框发送:python考试 获取完整源码源文件说明文档配置教程等 在虚拟环境下输入命令“python manage.py runserver”启动项目,然后,访问“http://127.0.0.1:8000”进入网站首页,如图1所示。 注册用…

jvm之堆解读

堆(Heap)的核心概述 堆针对一个JVM进程来说是唯一的,也就是一个进程只有一个JVM,但是进程包含多个线程,他们是共享同一堆空间的。 一个JVM实例只存在一个堆内存,堆也是Java内存管理的核心区域。 Java堆区…

我把物流装备用到了轨道交通接驳货物上,RGV,输送线,提升机,WCS……

导语大家好,我是智能仓储物流技术研习社的社长,你的老朋友,老K。新书上市《智能物流系统构成与技术实践》2023年度-厂商宣传合作位--->点击详情作者:马洪旭“智能制造”、“智慧物流”、“绿色物流”等高频词汇已成为物流行业的…