Genie 2:生成可交互3D世界的强大模型
模型发布背景
12月5日,AGI竞赛再次升级。继OpenAI宣布将在未来12天内发布新模型和新功能后,Google DeepMind发布了其最新的大型基础世界模型——Genie 2。这一模型能够生成各种可控制动作、可玩的3D环境,并可用于训练和评估具身智能体。
Genie 2的主要功能
交互式虚拟世界的生成
Genie 2只需一张提示图像和一段文本输入,就能生成一个用户可以自由探索和互动的3D虚拟世界。无论是人类玩家还是AI智能体,都能通过键盘和鼠标在这些由AI生成的环境中进行操作。
技术架构
Genie 2采用自回归潜在扩散模型,基于大型视频数据集进行训练。通过自动编码器,视频中的潜在帧被传递到大型Transformer动力学模型中,该模型使用类似于大语言模型的因果掩码进行训练。在推理过程中,Genie 2能够以自回归方式逐帧采样,结合单个动作和过去的潜在帧,生成连续的动作序列。为了提高动作的可控性,Google DeepMind还采用了无分类器指导(CFG)技术。
应用示例
文章作者展示了大量由未蒸馏的基础模型生成的视频示例,展示了Genie 2在多个方面的卓越表现:
- 行动控制:模型能够生成精确且自然的动作。
- 生成反设事实:用户可以创建与现实不同的场景。
- 长视界记忆:模型具有强大的空间记忆能力,能够在长时间内保持一致的环境状态。
- 长视频生成:能够生成连贯的长视频序列。
- 多样环境:支持多种类型的3D环境生成。
- 3D结构:生成的环境具有逼真的3D结构。
- 物体交互:物体之间的交互自然且符合物理规律。
- 复杂角色动画:生成的角色动画复杂且生动。
- NPC:非玩家角色(NPC)的行为自然且多样化。
- 物理模拟:能够模拟真实的物理现象,如风中摇曳的草和流动的水。
- 烟雾和光影:生成的烟雾和光影效果逼真。
- 快速原型设计:支持快速设计和测试新的虚拟环境。
实时交互与视觉质量
蒸馏版本的Genie 2支持实时交互,但在运行时的视觉质量会略有下降。尽管如此,这一版本依然能够提供流畅的用户体验。
超强空间记忆能力
与之前的模型相比,Genie 2在通用性和多样性方面取得了显著进展。它可以生成种类繁多的丰富3D世界,而不仅仅是局限于特定领域的2D环境。这种超强的空间记忆能力使得Genie 2能够更好地模拟真实世界的环境。
结语
Genie 2的发布标志着AI生成3D虚拟世界技术的重大突破。其强大的生成能力和高度的交互性为未来的虚拟现实应用提供了无限可能。
本文转载自互联网,若有侵权,请联系站长说明,禁止转载。
本文链接: https://www.xiezha.com/question/8cce12bab9ab4479b0c88ed0128ad143.html