谷歌DeepMind发布Genie 2模型可一键生成超逼真3D互动世界-行业资讯-抚顺众联网络技术有限公司

12月5日消息，美国时间周三，谷歌旗下的人工智能研究机构DeepMind发布了新模型Genie 2。这款升级版模型能够生成“无穷无尽”的多样化3D世界，为交互式实时场景的创建开辟了新途径。

Genie 2是今年早些时候推出的Genie模型的升级版本。通过输入一张图片和一段文字描述，例如“一个可爱的机器人置身于茂密的森林中”，Genie 2可以构建出一个实时互动的3D场景。这一能力与李飞飞创立的World Labs和以色列初创公司Decart开发的类似模型颇为相似。

DeepMind表示，Genie 2能够生成“极其丰富多样”的3D世界，用户可以通过鼠标或键盘在这些世界中完成跳跃、游泳等操作。通过大量视频数据训练，该模型具备模拟物体交互、动画效果、光照、物理现象、反射效果以及“NPC”（非玩家角色）行为的能力。

Genie 2生成的许多场景在视觉效果上堪比3A级视频游戏。这一现象可能源于模型训练数据中包含了热门游戏的游玩记录。然而，出于竞争和保密原因，DeepMind与其他许多AI实验室一样，并未透露其具体的数据来源和训练方法。

Genie 2的推出也引发了对知识产权的讨论。作为谷歌的子公司，DeepMind可以不受限制地访问YouTube，而谷歌此前也曾暗示，其服务条款允许将YouTube视频用于模型训练。然而，Genie 2是否在生成内容时无意间构成了对原始游戏的“未经授权复制”，仍需法律裁决。

DeepMind表示，Genie 2能够从不同视角（如第一人称视角和等距视角）生成连贯的虚拟世界，这些场景最长可持续一分钟，大多数情况下为10至20秒。

DeepMind在博客中写道：“Genie 2能够根据键盘操作作出智能反应，精准识别角色并正确移动。例如，模型可以判断方向键应控制机器人的移动，而非树木或云朵。”

尽管如此，目前类似Genie 2的模型在模拟游戏及3D环境时仍面临“人造感”、连贯性缺失以及“幻觉”等技术挑战。例如，Decart开发的《我的世界》模拟器Oasis存在分辨率低、无法记住关卡布局等问题。

相比之下，Genie 2能记忆并精准渲染模拟场景中未显示的部分，这与李飞飞World Labs的模型能力不谋而合。

鉴于当前技术限制，Genie 2生成的游戏仍存在每分钟清除玩家进度的问题，趣味性有限。因此，DeepMind将其定位为一种研究和创意工具，用于“交互体验”原型设计和AI智能体的评估。

DeepMind在博客中表示：“得益于Genie 2卓越的泛化能力，概念艺术和草图可以轻松转化为完全互动的环境。研究人员可以利用它快速创建丰富多样的AI训练环境，以生成模型训练期间未遇到的评估任务。”

这一技术对创意行业，特别是视频游戏领域，可能带来复杂影响。《连线》杂志的调查显示，像动视暴雪这样的公司正利用AI技术缩减成本、提升效率，其中包括大规模裁员。

与此同时，谷歌在世界模型领域的投入仍在持续增长，这一领域有望成为AI发展的下一重大突破。去年10月，DeepMind招募了此前负责OpenAI视频生成器Sora开发的蒂姆·布鲁克斯（Tim Brooks）负责视频生成技术和世界模拟器的研发。

两年前，DeepMind还从Meta挖来了因《NetHack》等电子游戏的“开放性”实验而闻名的蒂姆·罗克塔谢尔（Tim Rocktäschel）。

来源：网易科技报道

抚顺众联网络公司转载

抚顺网络公司抚顺网络抚顺软件公司

谷歌DeepMind发布Genie 2模型 可一键生成超逼真3D互动世界