视觉AI终于“开窍“了!谷歌扔了20年的钥匙,何恺明联手引爆Transformer革命
4月25日讯 科技圈今日迎来重大突破——谷歌DeepMind联合何恺明、谢赛宁、Jonathan T. Barron等全球顶尖学者正式发布视觉AI领域的颠覆性成果Vision Banana。这一成果被业界称为计算机视觉的哥白尼革命。过去二十年计算机视觉领域遵循着分而治之的铁律看图的模型和画图的模型泾渭分明检测、分割、生成各有一套专用架构和流水线。工程师们为每种视觉能力配备一把钥匙看似高效实则臃肿。但Vision Banana来了直接扔掉了所有专用工具。一个模型统治所有视觉任务不管问什么视觉问题答案都是一张图。项目团队介绍道。其核心理念直击传统范式理解本质上只是生成过程中的一次对齐。何恺明作为ResNet作者与谢赛宁、NeRF先驱Jonathan T. Barron、3D图形学名家Thomas Funkhouser等全球顶尖学者联手将这一理念付诸实践。基于Nano Banana Pro基础模型团队采用极简主义的指令微调策略将具备可逆格式的任务数据像催化剂般混入训练集。实验数据显示Vision Banana在GenAI-Bench文本生图中获得53.5%的人类评估胜率在ImgEdit图像编辑中获得47.8%的胜率在视觉生成与理解任务上实现SOTA尤其在极端遮挡、复杂场景理解等任务上优势明显。统一不意味着妥协打破了万能工具不如专用工具的诅咒。项目团队表示。这一成果的行业意义深远机器人不再需要复杂路径规划只需在脑中生成成功取物像素序列并去对齐物理现实与谷歌Gemini形成双螺旋——Gemini统一文本/多模态理解Vision Banana统一视觉理解/生成两者接通形成真正意义上的世界模型雏形。从专用到通用从理解到想象视觉AI走到了与NLP七年前相同的路口。这一次钥匙只有一把这把香蕉太狠了。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2554572.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!