谷歌DeepMind推出Genie 3“世界模型”：迈向通用人工智能的关键一步

AI
2025-08-06
488热度

8月6日消息，谷歌DeepMind官方于8月5日发布博文，重磅推出名为Genie 3的“世界模型”。这一创新成果，让AI系统能够与逼真的现实世界模拟展开互动，无疑为通用人工智能（AGI）的发展进程按下了加速键，在人工智能领域激起千层浪。

助力机器人与自动驾驶训练，世界模型成AGI关键

谷歌介绍称，Genie 3具有广泛的应用前景，尤其在训练机器人和自动驾驶车辆方面潜力巨大。它能让这些智能设备在与仓库等环境的真实再现中实现互动训练。在谷歌DeepMind人工智能部门专家看来，世界模型是实现AGI的关键步骤。AGI代表着一种理想的人工智能水平，达到这一水平的系统将不再局限于下棋、翻译语言等单一任务，而是具备执行大多数任务的能力，与人类智能相当，甚至可能取代某些工作岗位。DeepMind明确表示，Genie 3这类模型在开发自主执行任务的AI代理或系统中将发挥核心作用。

对比前代与视频生成模型，Genie 3优势显著

相较于前代模型Genie 1/2以及视频生成模型Veo 2（Veo 3对直觉物理学有深刻理解），Genie 3展现出诸多独特优势。它是首个允许实时交互的世界模型，与Genie 2相比，在一致性和真实感方面实现了显著提升。

Genie 3核心能力大揭秘

精准模拟世界物理特性

Genie 3对物理规律有着深刻理解，能够逼真地模拟各种物理现象。无论是水流动态、光影变化，还是复杂的环境互动，它都能轻松驾驭。例如，在模拟直升机在悬崖瀑布边机动的场景时，其逼真程度令人惊叹，仿佛让人置身于真实的惊险环境之中。

生动模拟自然世界

从冰川湖畔充满生机的生态系统，到幻想世界中可爱的毛茸茸生物在彩虹桥上跳跃，Genie 3拥有将想象力转化为可探索现实的能力。它打破了现实与幻想的界限，为用户带来前所未有的探索体验。

助力动画和小说建模

创作者可以借助Genie 3发挥无限想象力，创造出奇幻的场景和富有表现力的动画角色。这为动画制作和小说创作提供了全新的工具和思路，有望推动相关行业的创新发展。

探索不同地域与历史场景

Genie 3能够突破地理和时间的限制，带领用户穿越时空。用户既可以身穿翼装飞越雪山，感受极限运动的刺激；也可以置身于历史悠久的古城，领略古代文明的魅力。

突破实时性能极限

Genie 3实现了高度的可控性和实时交互性。在每一帧的自回归生成过程中，模型必须精准考虑先前生成的随时间增长的轨迹。例如，当用户在一分钟后重新访问某个位置时，模型要准确引用一分钟前的相关信息。为了实现实时交互性，这种复杂的计算必须每秒进行多次，以迅速响应新用户输入。

保障长时程环境一致性

为了让生成的世界更具沉浸感，Genie 3确保在很长一段时间内保持物理上的一致性。自动回归生成环境是一项极具挑战性的技术难题，因为不准确之处会随时间推移而累积。但Genie 3的环境在几分钟内基本能保持一致，视觉记忆可追溯到一分钟前，生成的世界更加动态和丰富。

支持可提示的世界事件

除了导航输入，Genie 3还支持基于文本的交互形式——可提示的世界事件。这一功能可以改变生成的世界，如改变天气条件或引入新的物体和角色，从而增强导航控制的体验。同时，它还增加了反事实或“假设”场景的广度，使代理能够从经验中学习，更好地处理意外情况。

尚未全面公开，存在一定局限性

尽管Genie 3展现出巨大潜力，但谷歌表示该模型尚未准备好全面公开上市，也未给出具体的发布日期，并指出其存在一些局限性。这一声明是在人工智能市场竞争日益激烈的背景下发布的。不过，谷歌强调，其世界模型还可帮助人类体验各种模拟训练或探索，如滑雪或绕山湖漫步。DeepMind称，Genie 3能够根据文本提示立即创建场景，并且模拟环境可快速更改，例如通过文本提示在滑雪坡上引入一群鹿。本周一，谷歌向记者展示了Genie 3创建的滑雪和仓库场景，但尚未公开模型。据《卫报》报道，这些模拟的质量与谷歌最新的视频创作模型Veo 3相当，但持续时间比Veo 3的八秒更长。

尽管AGI的发展可能引发人们对白领工作被消除的担忧，因为自主系统有望执行从销售代理到律师或会计师等各种角色，但谷歌认为世界模型是开发机器人和自动驾驶车辆的关键技术。以仓库场景为例，具有真实物理和人物再现的仓库模拟环境可以帮助训练机器人，使其在训练中从模拟中“学习”，更好地实现目标。Genie 3的诞生，为人工智能的发展开辟了新的道路，未来它将在更多领域展现其独特价值，我们拭目以待。