谷歌DeepMind发布Gemini 2.5 Deep Think:多智能体AI模型开启推理新纪元

8月2日消息,据TechCrunch报道,谷歌DeepMind今日正式推出其最新AI模型Gemini 2.5 Deep Think,并宣布该模型将于本周五(8月4日)面向订阅每月250美元Ultra服务的用户开放体验。谷歌称,这是其迄今为止最先进的AI推理系统,能够在解答问题时并行探索多条推理路径,并最终选择最优答案。

多智能体架构:AI推理能力的革命性突破

Gemini 2.5 Deep Think最早亮相于2025年谷歌I/O大会,是谷歌首个公开发布的多智能体(multi-agent)模型。与传统的单一智能体AI不同,该系统能够同时生成多个AI“子智能体”,并行处理同一问题,并通过协作或竞争机制筛选最佳解决方案。尽管这种架构对算力的需求远超传统AI,但其推理能力显著提升,尤其在复杂逻辑、数学证明和创造性任务中表现突出。

今年,谷歌曾凭借Gemini 2.5 Deep Think的一个优化版本,在国际数学奥林匹克(IMO)竞赛中斩获金牌,成为首个在该赛事中夺冠的AI系统。为促进学术研究,谷歌宣布将向部分经过筛选的数学家和学者开放这一竞赛级模型。不过,公司也坦言,该版本的推理速度较慢,“完成一次复杂推理可能需要数小时”,远高于消费级AI模型常见的秒级响应。

性能碾压竞品:HLE、LiveCodeBench 6测试全面领先

在谷歌设计的“人类终极大考”(Humanity’s Last Exam,HLE)中,Gemini 2.5 Deep Think在不借助外部工具的情况下取得了34.8%的得分,远超xAI的Grok 4(25.4%)和OpenAI的o3(20.3%)。HLE测试涵盖数学、科学、人文等领域的数千道众包难题,旨在评估AI的综合推理能力。

在编程能力方面,该模型在LiveCodeBench 6(高难度编程竞赛测试)中以87.6%的得分领先,优于Grok 4(79%)和OpenAI o3(72%)。谷歌强调,Gemini 2.5 Deep Think可自动调用代码执行、谷歌搜索等工具,并能生成更详尽的回答,其输出长度远超传统AI模型。

此外,在内部测试中,该模型完成的网页开发任务在代码质量、视觉设计等方面均优于竞品。谷歌认为,这种能力不仅适用于商业场景,还可能加速科研进程,例如辅助数学猜想验证或复杂实验设计。

行业趋势:科技巨头竞逐多智能体AI

多智能体系统正成为AI领域的新战场。除谷歌外,xAI近期推出了类似架构的Grok 4 Heavy,而OpenAI研究员Noam Brown透露,其未公开的IMO金牌模型也采用了多智能体技术。Anthropic则凭借多智能体驱动的Research Agent工具,在学术摘要生成领域占据优势。

然而,这类系统的高昂运营成本可能限制其普及。目前,谷歌和xAI均选择将其作为顶级订阅服务的专属功能,普通用户或需支付更高费用才能体验。

未来计划:API测试与商业化探索

谷歌表示,未来几周将邀请部分开发者通过Gemini API试用Gemini 2.5 Deep Think,以探索其在企业级应用中的潜力。公司还透露,已开发新型强化学习技术,可优化模型的推理效率,未来可能进一步降低计算成本。

随着多智能体AI的成熟,科技巨头间的竞争已从基础模型能力转向复杂任务解决效率。Gemini 2.5 Deep Think的发布,不仅标志着谷歌在AI推理领域的重大突破,也可能重新定义下一代AI服务的商业模式。