DeepSeek 上线识图模式迈向多模态交互,虽晚一步但表现仍值得期待
DeepSeek 上线识图模式开启多模态交互新时代4 月 29 日DeepSeek 网页版和 App 悄然上线了 识图模式支持上传图片进行内容理解与分析。这一功能的灰度测试标志着 DeepSeek 从纯文本对话正式迈向多模态交互。在 DeepSeek App 和网页版的对话界面中部分用户可以看到新增了一个 识图模式 按钮与月初上线的 快速模式 和 专家模式 并列。用户上传图片后DeepSeek 能够输出结构化的图片描述涵盖人物、场景、动作、颜色、文字OCR等多个维度具备真正的视觉理解能力。技术定位V4 主干上的视觉模块根据开发者工具抓取到的后端配置识图模式的 model_type 为 visionname 为 识图模式description 为 图片理解功能内测中。该配置已启用但默认关闭且不可手动切换印证了灰度测试的特性。值得注意的是4 月 24 日发布的 DeepSeek V4 仍为纯文本模型技术报告明确下一步将 融入多模态能力。因此当前的识图模式更接近于挂载在 V4 上的视觉理解模块而非原生多模态生成模型。团队背景与人才变动影响几何陈小康是 DeepSeek 多模态方向的核心研究者主导了 DeepSeek-VL2、Janus-Pro 等多模态模型的研发工作。不过DeepSeek 多模态团队近期经历了人才流失4 月 12 日元戎启行确认前 DeepSeek 多模态研究员阮翀加盟另一位核心成员魏浩然也在春节前后离职。此次识图模式的灰度上线是团队近三个月来首次释放产品进展信号。开放范围与市场竞争格局目前识图模式仅限部分用户可见尚未全量推送。有用户虽然看到了按钮但点击后收到提示 识图模式暂不可用请稍后再试。官方未明确说明开放范围及时间表但从陈小康 Soon-Now 的预告节奏判断更大范围的开放可能在数日之内。从纯文本到图文交互DeepSeek 的这一步虽然来得比 GPT - 4V、Claude 等竞品晚了一些但凭借 V4 强大的文本基座能力其多模态理解的表现仍然值得期待。在竞争激烈的 AI 市场中DeepSeek 需要加快迭代速度充分发挥自身优势以在多模态交互领域占据一席之地。编辑观点DeepSeek 上线识图模式是迈向多模态的重要一步虽有人才流失挑战但 V4 基座能力使其仍具竞争力后续开放和迭代值得关注。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2569259.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!