8篇论文中稿CVPR 2026!

news2026/3/22 13:14:50
点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐来源SCS计算机视觉专委会2026年2月21日CVPR 2026论文录用结果出炉共4090篇录用率为25.42%目前上海市计算机学会计算机视觉专委会正在征集上海地区的录用论文成果拟5月召开“2026 CVPR上海论文分享学术报告会”。。今天为大家带来12篇论文介绍后续将持续更新敬请关注~1. Text-Image Conditioned 3D Generation作者及单位岑家仲上海交通大学、华为方杰民华为李思旷上海交通大学、华为吴官骏华中科技大学、华为杨辰华为易陶然华中科技大学、华为周赞维上海交通大学、华为包治宽华为谢凌曦华为沈为上海交通大学田奇华为论文简介本文提出“图文联合驱动的三维生成”任务结合图像的细节约束与文本的语义表达缓解单一条件在视角偏置或细节不足上的问题。为解决这一任务本文提出轻量双分支基线方法TIGON通过跨模态融合提升生成质量与一致性实验显示其显著优于单模态方法为三维生成提供了更为灵活的交互范式。2. GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering作者及单位帅欣成复旦大学李自冶复旦大学丁恒辉复旦大学陶大程南洋理工大学论文简介生成精确的字形对于视觉文本渲染至关重要却也极具挑战性。现有方法通常通过在大量高质量场景文本图像上进行训练来提升文本渲染效果但字形变化覆盖不足以及过度风格化往往会损害字形准确性尤其在处理复杂或域外字符时更为明显。部分方法采用强化学习以缓解该问题然而其奖励模型通常依赖于对细粒度字形误差不敏感的文本识别系统导致包含错误字形的图像仍可能获得较高奖励。受直接偏好优化Direct Preference Optimization, DPO启发我们提出GlyphPrinter一种基于偏好的文本渲染方法无需依赖显式奖励模型。然而标准 DPO仅对两个样本间的整体偏好进行建模这对于字形误差通常出现在局部区域的视觉文本渲染任务而言是不适用的。为解决该问题我们构建了包含区域级字形偏好标注的GlyphCorrector 数据集并提出区域分组DPORegion-Grouped DPO, R-GDPO一种基于区域的目标函数通过优化标注区域间的样本内与样本间偏好显著提升字形准确性。此外我们引入区域奖励引导Regional Reward GuidanceRRG推理策略从具有可控字形精度的最优分布中进行采样。大量实验表明所提出的GlyphPrinter 在字形准确性方面优于现有方法同时在风格化与精度之间保持了良好平衡。3. PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow作者及单位帅欣成复旦大学唐松复旦大学黄钰桐复旦大学丁恒辉复旦大学陶大程南洋理工大学论文简介平面设计是一项富有创造性的过程在电子商务与广告等应用场景中发挥着关键作用。然而开发一种能够将用户意图准确转化为可编辑设计文件的自动化系统仍是一项尚未解决的挑战。尽管近期研究已利用强大的文生图模型与多模态大语言模型MLLMs辅助平面设计但这些方法通常对专业工作流程进行了简化导致其灵活性与直观性受限。为克服上述局限我们提出了PSDesigner一种模拟人类设计师创意工作流的自动化平面设计系统。PSDesigner包含了多个功能组件能够根据用户指令收集主题相关素材并自主推理与执行工具调用以操作设计文件。为赋予系统强大的工具使用能力我们构建了设计数据集CreativePSD该数据集包含了大量高质量的、覆盖多种设计场景与艺术风格的PSD格式文件并标注了操作轨迹使模型能够学习专家级设计流程。大量实验表明PSDesigner 在多种平面设计任务上均优于现有方法使非专业用户也能便捷地创作出符合生产质量的设计作品。4. S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs作者及单位纪宇舟上海交通大学田旗舰上海交通大学祝贺上海交通大学姜晓琦奇瑞汽车曹光植奇瑞汽车马利庄上海交通大学谢源华东师范大学谭鑫华东师范大学论文简介显式三维表示是闭环仿真与三维理解的重要载体但常用的点云表示渲染缺乏真实感而三维高斯溅射3DGS在稀疏输入下又退化严重。本文提出稀疏到稠密提升S2D方法衔接两种表示实现稀疏输入下高质量 3DGS 重建。S2D 包含一步扩散模型修复稀疏点云图像伪影以及带随机采样丢弃与加权梯度的重建策略。实验表明该方法在新视图生成一致性与稀疏视图重建质量上表现优异大幅降低 3DGS 应用的输入采集需求。5. xplore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration作者及单位王森华东师范大学刘邦威华东师范大学郜振焜华东师范大学马利庄华东师范大学汪旭鸿上海人工智能实验室谢源华东师范大学谭鑫华东师范大学、上海人工智能实验室论文简介本文提出长期记忆具身探索LMEE统一探索认知与决策过程促进智能体终身学习能力。构建LMEE-Bench基准涵盖多目标导航与记忆问答任务全面评估探索过程与结果。提出MemoryExplorer通过强化学习微调多模态大语言模型实现主动记忆查询与长时序探索在复杂具身任务中取得显著优势。Paper链接https://arxiv.org/abs/2601.10744Code链接https://wangsen99.github.io/papers/lmee/6. PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence作者及单位王睿妍上海交通大学胡腾上海交通大学黄恺慧上海交通大学苏子寒上海交通大学易冉上海交通大学马利庄上海交通大学论文简介本文提出首个通用姿态引导视频生成框架 PoseAnything打破了现有方法仅局限于人体姿态的瓶颈支持任意骨架输入。针对运动过程中的一致性问题创新性地提出部位感知时序一致性模块通过跨帧局部注意力机制实现了精细的部位级连贯性。同时通过主体与相机运动解耦 CFG 策略首次在姿态引导任务中实现了独立的镜头控制。此外本文发布了包含5万组非人姿态-视频对的高质量数据集 XPose。实验表明PoseAnything 在生成效果与泛化能力上均显著优于现有最先进方法。Paper链接https://arxiv.org/abs/2512.13465Code链接https://github.com/Ryan-w2024/PoseAnything7. Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy作者及单位胡腾上海交通大学, 余镇滔腾讯混元 张国珍腾讯混元, 苏子寒上海交通大学 周争光腾讯混元张有亮腾讯混元, 周源腾讯混元, 卢清林腾讯混元, 易冉上海交通大学论文简介针对生成式AI的音视频同步难题本文提出全新框架Harmony。该框架创新融合跨任务协同训练、全局-局部解耦交互模块与同步增强引导SyncCFG技术从底层机制上攻克了联合扩散模型的声画对齐瓶颈。实验表明Harmony不仅实现了生成保真度的飞跃更在细粒度音视频同步精度上实现了突破。Paper链接https://arxiv.org/abs/2511.21579Code链接https://github.com/sjtuplayer/Harmony8. Beyond [CLS] Token: Query-Driven Token-Level Forgery Purification for Generalizable Deepfake Detection作者及单位王昌硕上海交通大学王蒋铭腾讯优图实验室张克越腾讯优图实验室姚太平腾讯优图实验室丁守鸿腾讯优图实验室王顺利腾讯优图实验室易冉上海交通大学马利庄上海交通大学论文简介本文针对主流Deepfake检测器因过度依赖ViT预训练模型[CLS] token而导致的“预训练信息偏置”问题即模型易关注全局语义而忽略局部伪造痕迹提出了查询驱动的标记级伪造提纯QTFP框架。该框架通过引入独立于骨干网络的可学习查询标记来聚合局部伪造证据并利用伪造似然对比损失与真度注意力对齐约束在保留有用先验的同时强化对细微伪造特征的捕捉。实验证明该方法通过整合全标记层面的真伪信息有效提升了检测器在多样化数据集上的鲁棒性。9. When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs作者及单位王雅弘同济大学吴俊成University of California, Santa Cruz倪张凯*同济大学杨龙箴同济大学刘艺航同济大学杨成梅同济大学 文颖华东师范大学何良华*同济大学Xianfeng TangAmazonHui LiuAmazonYuyin ZhouUniversity of California, Santa Cruz论文简介本文研究视觉大模型中视觉 token 的信息衰减现象发现在深层网络中训练无关的剪枝方法效果等同随机剪枝。我们提出“信息地平线”概念揭示视觉 token 在一定深度后趋于冗余其位置与任务类型和模型规模密切相关。基于此随机剪枝在深层可高效平衡性能与效率并可稳定增强现有方法在 Qwen2.5-VL 上实现 50% 剪枝下保持 93.9% 性能。Paper链接https://arxiv.org/abs/2512.07580Code链接https://github.com/YahongWang1/Information-Horizon10. Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach作者及单位杨耀鑫复旦大学、张江实验室叶鹏香港中文大学、浦江实验室谭旭东复旦大学涂崇俊复旦大学赵茂森复旦大学、上海创智学院郝佳张江实验室陈涛复旦大学、上海创智学院论文简介我们提出了 FlashCache一种基于频域分析的多模态KV Cache压缩新方法。我们发现KV矩阵的频域能量主要集中在低频而偏离该主分布的异常KV对Outlier KVs对推理至关重要。FlashCache通过离散余弦变换识别并优先保留这些关键KV对同时动态分配各层缓存预算。该方法无需注意力分数计算和训练天然兼容FlashAttention。实验表明在保持性能的同时FlashCache可实现1.69倍解码加速和80% KV内存节省优于现有SOTA方法。Paper链接https://arxiv.org/abs/2511.1678611. Open the Motion Door: Atomic Motion Decomposition and Recomposition for Open-Vocabulary Motion Generation作者及单位樊珂上海交通大学张江宁腾讯易冉上海交通大学龚靖渝华东师范大学王亚彪腾讯王雅婷上海交通大学谭鑫华东师大大学汪铖杰腾讯马利庄上海交通大学、华东师范大学论文简介文本到运动的生成是计算机视觉领域的一项基础任务旨在根据自然语言描述合成三维人体运动序列。然而由于现有数据集的规模和多样性有限直接将原始文本映射到运动的模型往往难以泛化到跨领域文本输入。我们观察到尽管高层运动语义差异很大但许多运动都共享一组共同的底层原子运动——即简单、可重用的身体部位运动。基于此我们提出了一种用于开放词汇表文本到运动生成的原子运动分解与重组框架。我们的方法包含两个关键组件文本分解模块用于将跨领域描述解析为原子运动单元以及原子重组模块用于整合这些单元以生成最终的运动序列。我们的模型在领域内的 HumanML3D 数据集上取得了具有竞争力的性能并且在两个领域外数据集IDEA400 和 Mixamo上进行的大量实验表明我们的方法在开放词汇运动生成方面显著优于最先进的方法。12. EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing作者及单位付杨复旦大学郑伊柯复旦大学戴紫赟复旦大学丁恒辉复旦大学论文简介本文针对视频目标移除中难以同时消除遮挡、阴影、反射、光照变化及形变等视觉效应的问题提出了 EffectErase 框架。该方法通过将视频目标插入作为移除的逆辅助任务引入任务感知区域引导与一致性约束实现对目标及其诱发效应的精确建模。同时构建了包含 6 万对视频的 VOR 数据集覆盖多种真实与合成场景在多个基准上取得了领先性能。责校张志飞 审核付彦伟 签发赵才荣本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2437053.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…