8篇论文中稿CVPR 2026！

news2026/3/22 13:14:50

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐来源SCS计算机视觉专委会2026年2月21日CVPR 2026论文录用结果出炉共4090篇录用率为25.42%目前上海市计算机学会计算机视觉专委会正在征集上海地区的录用论文成果拟5月召开“2026 CVPR上海论文分享学术报告会”。。今天为大家带来12篇论文介绍后续将持续更新敬请关注~1. Text-Image Conditioned 3D Generation作者及单位岑家仲上海交通大学、华为方杰民华为李思旷上海交通大学、华为吴官骏华中科技大学、华为杨辰华为易陶然华中科技大学、华为周赞维上海交通大学、华为包治宽华为谢凌曦华为沈为上海交通大学田奇华为论文简介本文提出“图文联合驱动的三维生成”任务结合图像的细节约束与文本的语义表达缓解单一条件在视角偏置或细节不足上的问题。为解决这一任务本文提出轻量双分支基线方法TIGON通过跨模态融合提升生成质量与一致性实验显示其显著优于单模态方法为三维生成提供了更为灵活的交互范式。2. GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering作者及单位帅欣成复旦大学李自冶复旦大学丁恒辉复旦大学陶大程南洋理工大学论文简介生成精确的字形对于视觉文本渲染至关重要却也极具挑战性。现有方法通常通过在大量高质量场景文本图像上进行训练来提升文本渲染效果但字形变化覆盖不足以及过度风格化往往会损害字形准确性尤其在处理复杂或域外字符时更为明显。部分方法采用强化学习以缓解该问题然而其奖励模型通常依赖于对细粒度字形误差不敏感的文本识别系统导致包含错误字形的图像仍可能获得较高奖励。受直接偏好优化Direct Preference Optimization, DPO启发我们提出GlyphPrinter一种基于偏好的文本渲染方法无需依赖显式奖励模型。然而标准 DPO仅对两个样本间的整体偏好进行建模这对于字形误差通常出现在局部区域的视觉文本渲染任务而言是不适用的。为解决该问题我们构建了包含区域级字形偏好标注的GlyphCorrector 数据集并提出区域分组DPORegion-Grouped DPO, R-GDPO一种基于区域的目标函数通过优化标注区域间的样本内与样本间偏好显著提升字形准确性。此外我们引入区域奖励引导Regional Reward GuidanceRRG推理策略从具有可控字形精度的最优分布中进行采样。大量实验表明所提出的GlyphPrinter 在字形准确性方面优于现有方法同时在风格化与精度之间保持了良好平衡。3. PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow作者及单位帅欣成复旦大学唐松复旦大学黄钰桐复旦大学丁恒辉复旦大学陶大程南洋理工大学论文简介平面设计是一项富有创造性的过程在电子商务与广告等应用场景中发挥着关键作用。然而开发一种能够将用户意图准确转化为可编辑设计文件的自动化系统仍是一项尚未解决的挑战。尽管近期研究已利用强大的文生图模型与多模态大语言模型MLLMs辅助平面设计但这些方法通常对专业工作流程进行了简化导致其灵活性与直观性受限。为克服上述局限我们提出了PSDesigner一种模拟人类设计师创意工作流的自动化平面设计系统。PSDesigner包含了多个功能组件能够根据用户指令收集主题相关素材并自主推理与执行工具调用以操作设计文件。为赋予系统强大的工具使用能力我们构建了设计数据集CreativePSD该数据集包含了大量高质量的、覆盖多种设计场景与艺术风格的PSD格式文件并标注了操作轨迹使模型能够学习专家级设计流程。大量实验表明PSDesigner 在多种平面设计任务上均优于现有方法使非专业用户也能便捷地创作出符合生产质量的设计作品。4. S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs作者及单位纪宇舟上海交通大学田旗舰上海交通大学祝贺上海交通大学姜晓琦奇瑞汽车曹光植奇瑞汽车马利庄上海交通大学谢源华东师范大学谭鑫华东师范大学论文简介显式三维表示是闭环仿真与三维理解的重要载体但常用的点云表示渲染缺乏真实感而三维高斯溅射3DGS在稀疏输入下又退化严重。本文提出稀疏到稠密提升S2D方法衔接两种表示实现稀疏输入下高质量 3DGS 重建。S2D 包含一步扩散模型修复稀疏点云图像伪影以及带随机采样丢弃与加权梯度的重建策略。实验表明该方法在新视图生成一致性与稀疏视图重建质量上表现优异大幅降低 3DGS 应用的输入采集需求。5. xplore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration作者及单位王森华东师范大学刘邦威华东师范大学郜振焜华东师范大学马利庄华东师范大学汪旭鸿上海人工智能实验室谢源华东师范大学谭鑫华东师范大学、上海人工智能实验室论文简介本文提出长期记忆具身探索LMEE统一探索认知与决策过程促进智能体终身学习能力。构建LMEE-Bench基准涵盖多目标导航与记忆问答任务全面评估探索过程与结果。提出MemoryExplorer通过强化学习微调多模态大语言模型实现主动记忆查询与长时序探索在复杂具身任务中取得显著优势。Paper链接https://arxiv.org/abs/2601.10744Code链接https://wangsen99.github.io/papers/lmee/6. PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence作者及单位王睿妍上海交通大学胡腾上海交通大学黄恺慧上海交通大学苏子寒上海交通大学易冉上海交通大学马利庄上海交通大学论文简介本文提出首个通用姿态引导视频生成框架 PoseAnything打破了现有方法仅局限于人体姿态的瓶颈支持任意骨架输入。针对运动过程中的一致性问题创新性地提出部位感知时序一致性模块通过跨帧局部注意力机制实现了精细的部位级连贯性。同时通过主体与相机运动解耦 CFG 策略首次在姿态引导任务中实现了独立的镜头控制。此外本文发布了包含5万组非人姿态-视频对的高质量数据集 XPose。实验表明PoseAnything 在生成效果与泛化能力上均显著优于现有最先进方法。Paper链接https://arxiv.org/abs/2512.13465Code链接https://github.com/Ryan-w2024/PoseAnything7. Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy作者及单位胡腾上海交通大学, 余镇滔腾讯混元张国珍腾讯混元, 苏子寒上海交通大学周争光腾讯混元张有亮腾讯混元, 周源腾讯混元, 卢清林腾讯混元, 易冉上海交通大学论文简介针对生成式AI的音视频同步难题本文提出全新框架Harmony。该框架创新融合跨任务协同训练、全局-局部解耦交互模块与同步增强引导SyncCFG技术从底层机制上攻克了联合扩散模型的声画对齐瓶颈。实验表明Harmony不仅实现了生成保真度的飞跃更在细粒度音视频同步精度上实现了突破。Paper链接https://arxiv.org/abs/2511.21579Code链接https://github.com/sjtuplayer/Harmony8. Beyond [CLS] Token: Query-Driven Token-Level Forgery Purification for Generalizable Deepfake Detection作者及单位王昌硕上海交通大学王蒋铭腾讯优图实验室张克越腾讯优图实验室姚太平腾讯优图实验室丁守鸿腾讯优图实验室王顺利腾讯优图实验室易冉上海交通大学马利庄上海交通大学论文简介本文针对主流Deepfake检测器因过度依赖ViT预训练模型[CLS] token而导致的“预训练信息偏置”问题即模型易关注全局语义而忽略局部伪造痕迹提出了查询驱动的标记级伪造提纯QTFP框架。该框架通过引入独立于骨干网络的可学习查询标记来聚合局部伪造证据并利用伪造似然对比损失与真度注意力对齐约束在保留有用先验的同时强化对细微伪造特征的捕捉。实验证明该方法通过整合全标记层面的真伪信息有效提升了检测器在多样化数据集上的鲁棒性。9. When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs作者及单位王雅弘同济大学吴俊成University of California, Santa Cruz倪张凯*同济大学杨龙箴同济大学刘艺航同济大学杨成梅同济大学文颖华东师范大学何良华*同济大学Xianfeng TangAmazonHui LiuAmazonYuyin ZhouUniversity of California, Santa Cruz论文简介本文研究视觉大模型中视觉 token 的信息衰减现象发现在深层网络中训练无关的剪枝方法效果等同随机剪枝。我们提出“信息地平线”概念揭示视觉 token 在一定深度后趋于冗余其位置与任务类型和模型规模密切相关。基于此随机剪枝在深层可高效平衡性能与效率并可稳定增强现有方法在 Qwen2.5-VL 上实现 50% 剪枝下保持 93.9% 性能。Paper链接https://arxiv.org/abs/2512.07580Code链接https://github.com/YahongWang1/Information-Horizon10. Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach作者及单位杨耀鑫复旦大学、张江实验室叶鹏香港中文大学、浦江实验室谭旭东复旦大学涂崇俊复旦大学赵茂森复旦大学、上海创智学院郝佳张江实验室陈涛复旦大学、上海创智学院论文简介我们提出了 FlashCache一种基于频域分析的多模态KV Cache压缩新方法。我们发现KV矩阵的频域能量主要集中在低频而偏离该主分布的异常KV对Outlier KVs对推理至关重要。FlashCache通过离散余弦变换识别并优先保留这些关键KV对同时动态分配各层缓存预算。该方法无需注意力分数计算和训练天然兼容FlashAttention。实验表明在保持性能的同时FlashCache可实现1.69倍解码加速和80% KV内存节省优于现有SOTA方法。Paper链接https://arxiv.org/abs/2511.1678611. Open the Motion Door: Atomic Motion Decomposition and Recomposition for Open-Vocabulary Motion Generation作者及单位樊珂上海交通大学张江宁腾讯易冉上海交通大学龚靖渝华东师范大学王亚彪腾讯王雅婷上海交通大学谭鑫华东师大大学汪铖杰腾讯马利庄上海交通大学、华东师范大学论文简介文本到运动的生成是计算机视觉领域的一项基础任务旨在根据自然语言描述合成三维人体运动序列。然而由于现有数据集的规模和多样性有限直接将原始文本映射到运动的模型往往难以泛化到跨领域文本输入。我们观察到尽管高层运动语义差异很大但许多运动都共享一组共同的底层原子运动——即简单、可重用的身体部位运动。基于此我们提出了一种用于开放词汇表文本到运动生成的原子运动分解与重组框架。我们的方法包含两个关键组件文本分解模块用于将跨领域描述解析为原子运动单元以及原子重组模块用于整合这些单元以生成最终的运动序列。我们的模型在领域内的 HumanML3D 数据集上取得了具有竞争力的性能并且在两个领域外数据集IDEA400 和 Mixamo上进行的大量实验表明我们的方法在开放词汇运动生成方面显著优于最先进的方法。12. EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing作者及单位付杨复旦大学郑伊柯复旦大学戴紫赟复旦大学丁恒辉复旦大学论文简介本文针对视频目标移除中难以同时消除遮挡、阴影、反射、光照变化及形变等视觉效应的问题提出了 EffectErase 框架。该方法通过将视频目标插入作为移除的逆辅助任务引入任务感知区域引导与一致性约束实现对目标及其诱发效应的精确建模。同时构建了包含 6 万对视频的 VOR 数据集覆盖多种真实与合成场景在多个基准上取得了领先性能。责校张志飞审核付彦伟签发赵才荣本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2437053.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！