18 CLIP 论文精读：ViT 如何走向图文多模态？（Learning Transferable Visual Models From Natural Language Supervision）

news2026/5/24 0:14:24

在前几篇文章中我们围绕 ViT 的自监督预训练路线进行了连续梳理。MAE 的核心思想是遮住大部分图像 patch让模型重建被遮挡区域的像素。BEiT 的核心思想是先用视觉 tokenizer 把图像转换成离散 visual token再让模型预测被 mask 位置对应的 visual token。DINO 的核心思想是不使用人工标签也不重建图像而是通过 teacher-student 自蒸馏让 ViT 学到稳定的语义表示。这些方法虽然形式不同但它们本质上都在回答同一个问题没有人工类别标签时ViT 如何从图像本身学习视觉表示而 CLIP 开始回答另一个更大的问题能不能直接利用互联网上大量的图像和文本描述让模型学会把图像和语言对齐这意味着ViT 不再只是一个图像分类 backbone而开始进入图文多模态预训练阶段。CLIP 对应的论文是 Learning Transferable Visual Models From Natural Language Supervision由 Alec Radford 等人提出发表于 ICML 2021。论文提出使用 4 亿个互联网图文对进行预训练通过“判断哪张图和哪句话匹配”的对比学习任务学习可迁移的视觉表示并支持 zero-shot 图像分类。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2635093.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！