视觉Transformer的「近视眼」手术——LaSt-ViT如何让机器真正「看懂」图像
一、先从一个奇怪的实验说起想象一下这个场景:你正在训练一个视觉模型来识别图片里的猫。你给它看一张猫坐在沙发上的照片,模型说:「这是猫。」准确无误。但当你问它:「你『看』到了什么?」它指着沙发、指着地毯、指着墙上的挂饰——唯独没有指着那只猫。这听起来很荒谬,对吧?但这正是 Vision Transformer(ViT)过去几年的真实写照。香港大学程石团队在今年 CVPR 2026 上发表的论文“Vision Transformers Need More Than Registers”(LaSt-ViT),揭示了这个令人困惑的现象,并只用一招就解决了它。二、ViT 的「近视」症状:能分类,却看不懂那个反直觉的发现研究团队做了一个简单到令人发指的实验:把图片里模型「最关注」的 50% 区域直接涂黑,看看会发生什么。你猜怎么着?准确率不仅没降,反而还提升了 1.2%。这就像一个人声称自己看懂了这张图是「猫」,但当你把他声称看到的部分全部遮掉,他的判断反而更准确了。这说明什么?他根本就没在看猫。他在看背景。Patch Score:照妖镜下的真相研究团队发明了一个简
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2525710.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!