谷歌DeepMind发布Gemini 2.5 Deep Think：多智能体AI模型开启推理新纪元

AI
5小时前
8热度

8月2日消息，据TechCrunch报道，谷歌DeepMind今日正式推出其最新AI模型Gemini 2.5 Deep Think，并宣布该模型将于本周五（8月4日）面向订阅每月250美元Ultra服务的用户开放体验。谷歌称，这是其迄今为止最先进的AI推理系统，能够在解答问题时并行探索多条推理路径，并最终选择最优答案。

多智能体架构：AI推理能力的革命性突破

Gemini 2.5 Deep Think最早亮相于2025年谷歌I/O大会，是谷歌首个公开发布的多智能体（multi-agent）模型。与传统的单一智能体AI不同，该系统能够同时生成多个AI“子智能体”，并行处理同一问题，并通过协作或竞争机制筛选最佳解决方案。尽管这种架构对算力的需求远超传统AI，但其推理能力显著提升，尤其在复杂逻辑、数学证明和创造性任务中表现突出。

今年，谷歌曾凭借Gemini 2.5 Deep Think的一个优化版本，在国际数学奥林匹克（IMO）竞赛中斩获金牌，成为首个在该赛事中夺冠的AI系统。为促进学术研究，谷歌宣布将向部分经过筛选的数学家和学者开放这一竞赛级模型。不过，公司也坦言，该版本的推理速度较慢，“完成一次复杂推理可能需要数小时”，远高于消费级AI模型常见的秒级响应。

性能碾压竞品：HLE、LiveCodeBench 6测试全面领先

在谷歌设计的“人类终极大考”（Humanity’s Last Exam，HLE）中，Gemini 2.5 Deep Think在不借助外部工具的情况下取得了34.8%的得分，远超xAI的Grok 4（25.4%）和OpenAI的o3（20.3%）。HLE测试涵盖数学、科学、人文等领域的数千道众包难题，旨在评估AI的综合推理能力。

在编程能力方面，该模型在LiveCodeBench 6（高难度编程竞赛测试）中以87.6%的得分领先，优于Grok 4（79%）和OpenAI o3（72%）。谷歌强调，Gemini 2.5 Deep Think可自动调用代码执行、谷歌搜索等工具，并能生成更详尽的回答，其输出长度远超传统AI模型。

此外，在内部测试中，该模型完成的网页开发任务在代码质量、视觉设计等方面均优于竞品。谷歌认为，这种能力不仅适用于商业场景，还可能加速科研进程，例如辅助数学猜想验证或复杂实验设计。

行业趋势：科技巨头竞逐多智能体AI

多智能体系统正成为AI领域的新战场。除谷歌外，xAI近期推出了类似架构的Grok 4 Heavy，而OpenAI研究员Noam Brown透露，其未公开的IMO金牌模型也采用了多智能体技术。Anthropic则凭借多智能体驱动的Research Agent工具，在学术摘要生成领域占据优势。

然而，这类系统的高昂运营成本可能限制其普及。目前，谷歌和xAI均选择将其作为顶级订阅服务的专属功能，普通用户或需支付更高费用才能体验。

未来计划：API测试与商业化探索

谷歌表示，未来几周将邀请部分开发者通过Gemini API试用Gemini 2.5 Deep Think，以探索其在企业级应用中的潜力。公司还透露，已开发新型强化学习技术，可优化模型的推理效率，未来可能进一步降低计算成本。

随着多智能体AI的成熟，科技巨头间的竞争已从基础模型能力转向复杂任务解决效率。Gemini 2.5 Deep Think的发布，不仅标志着谷歌在AI推理领域的重大突破，也可能重新定义下一代AI服务的商业模式。