DeepSeek 开始测试识图模式，国产模型又近了一步

news2026/5/3 5:06:22

看到消息说 DeepSeek 正在灰度测试识图模式。说实话这个消息让我有点兴奋。DeepSeek 这个团队我一直在关注。他们的模型开源、便宜、效果还不错之前在开发者圈子里热度很高。但一直有一个短板就是不支持多模态。你只能跟它聊文字发图片给它它会说「我不支持图片输入」。现在终于补上了。先说说识图这个能力本身。「识图」听起来好像很玄乎但坦率的讲就是让 AI 能「看懂」图片。你发一张截图给它它能告诉你这张图里有什么。你发一个表格给它它能帮你分析数据。你发一个报错截图给它它能告诉你问题出在哪。这个能力有多重要我跟你说重要到你一旦习惯了就回不去了。举个例子。你写代码的时候遇到一个报错传统做法是什么复制报错信息粘贴到 Google 或 StackOverflow搜索解决方案。现在呢直接截图发给 AIAI 告诉你问题出在哪怎么修。你说这个差别大不大再举个例子。你看到一篇文章很长不想读完。直接截图关键段落发给 AI让它给你总结。你说这个效率高不高我自己的感受是识图能力已经从「锦上添花」变成了「刚需」。GPT-4V 出来之后我发图片给 AI 的频率越来越高了。有时候甚至懒得打字直接截图完事。再聊聊 DeepSeek 这个产品本身。DeepSeek 是国产开源模型里的一匹黑马。它的特点是什么便宜快效果还行。坦率的讲不是最好的但性价比极高。你用 GPT-4 的 API一个月可能要花几百块。用 DeepSeek可能只要几十块。对于很多开发者来说这个差价是实打实的成本。而且 DeepSeek 是开源的你可以自己部署。对于有数据安全需求的企业来说这是一个很大的优势。但之前 DeepSeek 最大的短板就是没有多模态能力。你只能用它来处理文本任务。发图片不支持。现在补上这个短板之后DeepSeek 的可用场景一下子拓宽了很多。但我也要说说我的顾虑。识图这个能力听起来简单但做好其实很难。GPT-4V 刚出来的时候就被曝出过不少问题。比如把人种识别错比如看不懂某些专业图表比如被一张图骗过去回答错误的问题。DeepSeek 的识图能力能做到什么水平目前还在灰度测试阶段我没有亲自用过所以不能给出评价。但从小模型的一般规律来看识图精度可能不如 GPT-4V。这是取舍。你要便宜、开源、可自部署就得接受精度上的差距。你要精度高就得接受付费和云端调用。但我觉得精度差距是可以接受的。因为绝大多数的日常场景不需要 GPT-4V 那个级别的精度。你让它看一个报错截图它只要能识别出关键信息就行了。你让它看一个菜单翻译它只要能翻译个大概就行了。完美主义在这里没有意义。能用、便宜、离你近这三个特点加起来才是 DeepSeek 的核心竞争力。说到这块我想聊聊国产模型的整体态势。过去两年我们看着 GPT-4 一骑绝尘国产模型在后面追赶。说没有焦虑感是假的。但这个焦虑感最近在慢慢减轻。为什么因为我们发现追赶的速度比想象中快。国产模型在文本能力上已经追得差不多了现在在多模态能力上也在补课。文心一言、通义千问、智谱、DeepSeek都在陆续推出多模态能力。差距还在但不再是那种「遥不可及」的差距了。我一直觉得AI 这个赛道是一场马拉松不是百米冲刺。GPT-4 跑得快不代表它能一直领先。技术的扩散速度比想象中快今天的护城河明天可能就被填平了。最后说说我怎么看待这个消息。DeepSeek 测试识图模式不是什么惊天动地的大新闻。但它是国产模型在多模态领域的又一次进步。对于开发者来说多了一个选择。你可以继续用 GPT-4V也可以试试 DeepSeek看看性价比和精度的平衡点在哪里。对于普通用户来说国产模型的能力越来越全意味着你可以用更低的成本享受到 AI 的能力。对于行业来说竞争会越来越激烈。大厂会被迫加速迭代创业公司会被迫找到差异化定位。这些都是好事。AI 正在从一个「贵族工具」变成「大众工具」。从云端走向终端从付费走向免费从闭源走向开源。这个趋势我觉得不可逆转。DeepSeek 只是这个趋势中的一个节点。但它代表了一个更大的方向AI 能力正在快速扩散扩散到每个普通人的口袋里。这个未来值得期待。以上既然看到这里了如果觉得不错随手点个赞、在看、转发三连吧如果想第一时间收到推送也可以给我个星标⭐谢谢你看我的文章我们下次再见。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2577239.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！