DeepSeek终于能看懂图片了，多模态时代正式开启

科技快讯
6小时前
4热度

最近，DeepSeek大范围开放了“识图模式”，用户可以在输入框上方找到与“快速模式”、“专家模式”并列的新入口。虽然目前仍标注着“图片理解功能内测中”，但这标志着DeepSeek正式从纯文本对话迈入了图文多模态交互的新阶段。

这项能力的核心，不在于简单的OCR文字提取，而在于DeepSeek真正开始理解图像的内容。它能根据一张博物馆里拍的不明文物照片，结合纹理、材质细节，推断出它属于18世纪清代的“痕都斯坦风格”；也能精准识别合照中的人物，甚至解读出表情包里的幽默情绪。在生产力场景中，它甚至可以直接将包含复杂代码或UI界面的截图解析出来，一键反向生成可交互的网页代码。

这种能力的跃升，源于DeepSeek在技术路线上的独特创新。传统多模态大模型在处理复杂图像时存在“指代鸿沟”——模型“看到了”，但在推理时用“左边那个大的”这种模糊语言描述，很容易指代不清。DeepSeek的解法是把“点”和“边界框”这些空间标记直接融入模型的推理过程，成为它的“思维基本单元”。简单说，就是让AI在思考时能精确地“指”出目标物，从而大幅提升在计数、空间推理等任务上的准确率。

更值得一提的是，DeepSeek在保持极高算力性价比的同时，还做到了极高的视觉标记效率。在处理一张800×800分辨率的图片时，它仅消耗约90个Tokens，而其他主流模型则需要消耗近千个。在多项基准测试中，其表现甚至比肩或超越了GPT-5.4等国际顶尖模型。

不过，刚学会“睁眼”的DeepSeek也并非完美。由于知识库存在更新滞后，它有时会认不出2025年底才发布的最新型号手机；在面对一些高难度的视错觉图形时，它的答案依然存在不确定性。

对于国产大模型而言，DeepSeek这次补齐多模态短板的动作，标志着行业竞争的重心正从单一的文本生成，转向更深层次的“视觉语言耦合”。可以预见的是，随着识图功能的全面铺开，DeepSeek有望在自动化办公、工业视觉理解等更多垂直领域释放出更大的生产力。从“读字”到“识物”，这一步跨越，意义非凡。