Course15：视觉大模型与多模态理解

news2026/3/16 12:51:32

Qwen 多模态模型中图片 Token ID 与向量的核心理解文本 Token 是 “语言的最小语义单元”图片 Token 是 “视觉的最小特征单元”—— 两者最终都会被映射到同一维度的向量空间让模型能 “读懂” 图文的关联语义。维度文本 Token如 Qwen 的中文分词图片 TokenQwen-VL 的视觉 Token拆分方式按语义拆分字 / 词 / 子词如 “手机”→[手机]按空间特征拆分网格切块→特征编码Token ID 含义对应词典里的语义符号如 ID1001→“手”对应视觉特征的编码索引无字面含义向量本质语义向量代表这个词的含义视觉特征向量代表这个区域的视觉特征文本 Token 是 “语言积木”图片 Token 是 “视觉积木”向量是 “积木的特征描述”Qwen-VL 就是用这些积木拼出图文关联的逻辑。Qwen-VL 中图片 Token 的生成过程核心逻辑每个 Patch 通过卷积 / Transformer 层提取视觉特征比如 768 维的特征向量代表这个 Patch 的颜色、纹理、边缘、形状等信息• Qwen-VL 内置一个 “视觉词典”和文本词典类似但存的是视觉特征模板把每个 Patch 的特征匹配到词典中最接近的模板得到一个视觉 Token IDToken ID 是 “索引”向量是 “本质”◦Token ID 只是一个数字标签比如 ID20001本身无意义只是用来查 “视觉词典” ◦ 向量才是核心768 维的向量每一个维度代表一个视觉特征维度所有维度组合起来就唯一描述了这个 Patch 的视觉特征。图片 Token 向量和文本 Token 向量 “在同一语义空间”Qwen-VL 的核心设计是 “图文对齐”训练时模型会学习 “文本 Token 向量” 和 “图片 Token 向量” 的关联比如文本 “红色苹果” 的向量和图片中 “苹果 Patch” 的向量会被拉到相近位置推理时模型能通过向量的相似度理解 “文字描述” 和 “图片内容” 的对应关系。VLM在车辆保险理赔的应用视频基础模型视频多模态注释框架 VidCapInternVideo2 预训练模型表现时间动作识别模型表现混淆动作识别模型表现视频中心对话MinerUMinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书并将其转换为易于分析的 Markdown 或JSON 格式。由上海人工智能实验室OpenDataLab 团队开发。核心技术• 布局检测基于 LayoutLMv3 微调识别文本、表格、图片等区域。• 公式识别使用 YOLOv8 检测公式UniMERNet 模型转换 LaTeX。• OCR 增强采用 PaddleOCR 提高文本识别准确率。应用场景• 大模型训练为书生·浦语等模型提供高质量语料。• 学术研究提取论文、教材中的关键信息。• 法律与金融解析合同、研报等结构化数据。MinerU网页信息解析CASE:VLM在寿险里的应用多语言识别CASE:VLM在车险里的应用CASE:车辆剐蹭视频理解

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2413618.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！