谷歌DeepMind推出Genie 3“世界模型”:迈向通用人工智能的关键一步

8月6日消息,谷歌DeepMind官方于8月5日发布博文,重磅推出名为Genie 3的“世界模型”。这一创新成果,让AI系统能够与逼真的现实世界模拟展开互动,无疑为通用人工智能(AGI)的发展进程按下了加速键,在人工智能领域激起千层浪。

助力机器人与自动驾驶训练,世界模型成AGI关键

谷歌介绍称,Genie 3具有广泛的应用前景,尤其在训练机器人和自动驾驶车辆方面潜力巨大。它能让这些智能设备在与仓库等环境的真实再现中实现互动训练。在谷歌DeepMind人工智能部门专家看来,世界模型是实现AGI的关键步骤。AGI代表着一种理想的人工智能水平,达到这一水平的系统将不再局限于下棋、翻译语言等单一任务,而是具备执行大多数任务的能力,与人类智能相当,甚至可能取代某些工作岗位。DeepMind明确表示,Genie 3这类模型在开发自主执行任务的AI代理或系统中将发挥核心作用。

对比前代与视频生成模型,Genie 3优势显著

相较于前代模型Genie 1/2以及视频生成模型Veo 2(Veo 3对直觉物理学有深刻理解),Genie 3展现出诸多独特优势。它是首个允许实时交互的世界模型,与Genie 2相比,在一致性和真实感方面实现了显著提升。

Genie 3核心能力大揭秘

精准模拟世界物理特性

Genie 3对物理规律有着深刻理解,能够逼真地模拟各种物理现象。无论是水流动态、光影变化,还是复杂的环境互动,它都能轻松驾驭。例如,在模拟直升机在悬崖瀑布边机动的场景时,其逼真程度令人惊叹,仿佛让人置身于真实的惊险环境之中。

生动模拟自然世界

从冰川湖畔充满生机的生态系统,到幻想世界中可爱的毛茸茸生物在彩虹桥上跳跃,Genie 3拥有将想象力转化为可探索现实的能力。它打破了现实与幻想的界限,为用户带来前所未有的探索体验。

助力动画和小说建模

创作者可以借助Genie 3发挥无限想象力,创造出奇幻的场景和富有表现力的动画角色。这为动画制作和小说创作提供了全新的工具和思路,有望推动相关行业的创新发展。

探索不同地域与历史场景

Genie 3能够突破地理和时间的限制,带领用户穿越时空。用户既可以身穿翼装飞越雪山,感受极限运动的刺激;也可以置身于历史悠久的古城,领略古代文明的魅力。

突破实时性能极限

Genie 3实现了高度的可控性和实时交互性。在每一帧的自回归生成过程中,模型必须精准考虑先前生成的随时间增长的轨迹。例如,当用户在一分钟后重新访问某个位置时,模型要准确引用一分钟前的相关信息。为了实现实时交互性,这种复杂的计算必须每秒进行多次,以迅速响应新用户输入。

保障长时程环境一致性

为了让生成的世界更具沉浸感,Genie 3确保在很长一段时间内保持物理上的一致性。自动回归生成环境是一项极具挑战性的技术难题,因为不准确之处会随时间推移而累积。但Genie 3的环境在几分钟内基本能保持一致,视觉记忆可追溯到一分钟前,生成的世界更加动态和丰富。

支持可提示的世界事件

除了导航输入,Genie 3还支持基于文本的交互形式——可提示的世界事件。这一功能可以改变生成的世界,如改变天气条件或引入新的物体和角色,从而增强导航控制的体验。同时,它还增加了反事实或“假设”场景的广度,使代理能够从经验中学习,更好地处理意外情况。

尚未全面公开,存在一定局限性

尽管Genie 3展现出巨大潜力,但谷歌表示该模型尚未准备好全面公开上市,也未给出具体的发布日期,并指出其存在一些局限性。这一声明是在人工智能市场竞争日益激烈的背景下发布的。不过,谷歌强调,其世界模型还可帮助人类体验各种模拟训练或探索,如滑雪或绕山湖漫步。DeepMind称,Genie 3能够根据文本提示立即创建场景,并且模拟环境可快速更改,例如通过文本提示在滑雪坡上引入一群鹿。本周一,谷歌向记者展示了Genie 3创建的滑雪和仓库场景,但尚未公开模型。据《卫报》报道,这些模拟的质量与谷歌最新的视频创作模型Veo 3相当,但持续时间比Veo 3的八秒更长。

尽管AGI的发展可能引发人们对白领工作被消除的担忧,因为自主系统有望执行从销售代理到律师或会计师等各种角色,但谷歌认为世界模型是开发机器人和自动驾驶车辆的关键技术。以仓库场景为例,具有真实物理和人物再现的仓库模拟环境可以帮助训练机器人,使其在训练中从模拟中“学习”,更好地实现目标。Genie 3的诞生,为人工智能的发展开辟了新的道路,未来它将在更多领域展现其独特价值,我们拭目以待。