DeepSeek终于能看懂图片了,多模态时代正式开启

最近,DeepSeek大范围开放了“识图模式”,用户可以在输入框上方找到与“快速模式”、“专家模式”并列的新入口。虽然目前仍标注着“图片理解功能内测中”,但这标志着DeepSeek正式从纯文本对话迈入了图文多模态交互的新阶段。

这项能力的核心,不在于简单的OCR文字提取,而在于DeepSeek真正开始理解图像的内容。它能根据一张博物馆里拍的不明文物照片,结合纹理、材质细节,推断出它属于18世纪清代的“痕都斯坦风格”;也能精准识别合照中的人物,甚至解读出表情包里的幽默情绪。在生产力场景中,它甚至可以直接将包含复杂代码或UI界面的截图解析出来,一键反向生成可交互的网页代码。

这种能力的跃升,源于DeepSeek在技术路线上的独特创新。传统多模态大模型在处理复杂图像时存在“指代鸿沟”——模型“看到了”,但在推理时用“左边那个大的”这种模糊语言描述,很容易指代不清。DeepSeek的解法是把“点”和“边界框”这些空间标记直接融入模型的推理过程,成为它的“思维基本单元”。简单说,就是让AI在思考时能精确地“指”出目标物,从而大幅提升在计数、空间推理等任务上的准确率。

更值得一提的是,DeepSeek在保持极高算力性价比的同时,还做到了极高的视觉标记效率。在处理一张800×800分辨率的图片时,它仅消耗约90个Tokens,而其他主流模型则需要消耗近千个。在多项基准测试中,其表现甚至比肩或超越了GPT-5.4等国际顶尖模型。

不过,刚学会“睁眼”的DeepSeek也并非完美。由于知识库存在更新滞后,它有时会认不出2025年底才发布的最新型号手机;在面对一些高难度的视错觉图形时,它的答案依然存在不确定性。

对于国产大模型而言,DeepSeek这次补齐多模态短板的动作,标志着行业竞争的重心正从单一的文本生成,转向更深层次的“视觉语言耦合”。可以预见的是,随着识图功能的全面铺开,DeepSeek有望在自动化办公、工业视觉理解等更多垂直领域释放出更大的生产力。从“读字”到“识物”,这一步跨越,意义非凡。