News Contents
新闻资讯

谷歌DeepMind发布Genie 2模型 可一键生成超逼真3D互动世界

发表日期2024/12/5 9:44:42      浏览次数:

12月5日消息,美国时间周三,谷歌旗下的人工智能研究机构DeepMind发布了新模型Genie 2。这款升级版模型能够生成“无穷无尽”的多样化3D世界,为交互式实时场景的创建开辟了新途径。

Genie 2是今年早些时候推出的Genie模型的升级版本。通过输入一张图片和一段文字描述,例如“一个可爱的机器人置身于茂密的森林中”,Genie 2可以构建出一个实时互动的3D场景。这一能力与李飞飞创立的World Labs和以色列初创公司Decart开发的类似模型颇为相似。

DeepMind表示,Genie 2能够生成“极其丰富多样”的3D世界,用户可以通过鼠标或键盘在这些世界中完成跳跃、游泳等操作。通过大量视频数据训练,该模型具备模拟物体交互、动画效果、光照、物理现象、反射效果以及“NPC”(非玩家角色)行为的能力。

Genie 2生成的许多场景在视觉效果上堪比3A级视频游戏。这一现象可能源于模型训练数据中包含了热门游戏的游玩记录。然而,出于竞争和保密原因,DeepMind与其他许多AI实验室一样,并未透露其具体的数据来源和训练方法。

Genie 2的推出也引发了对知识产权的讨论。作为谷歌的子公司,DeepMind可以不受限制地访问YouTube,而谷歌此前也曾暗示,其服务条款允许将YouTube视频用于模型训练。然而,Genie 2是否在生成内容时无意间构成了对原始游戏的“未经授权复制”,仍需法律裁决。

DeepMind表示,Genie 2能够从不同视角(如第一人称视角和等距视角)生成连贯的虚拟世界,这些场景最长可持续一分钟,大多数情况下为10至20秒。

DeepMind在博客中写道:“Genie 2能够根据键盘操作作出智能反应,精准识别角色并正确移动。例如,模型可以判断方向键应控制机器人的移动,而非树木或云朵。”

尽管如此,目前类似Genie 2的模型在模拟游戏及3D环境时仍面临“人造感”、连贯性缺失以及“幻觉”等技术挑战。例如,Decart开发的《我的世界》模拟器Oasis存在分辨率低、无法记住关卡布局等问题。

相比之下,Genie 2能记忆并精准渲染模拟场景中未显示的部分,这与李飞飞World Labs的模型能力不谋而合。

鉴于当前技术限制,Genie 2生成的游戏仍存在每分钟清除玩家进度的问题,趣味性有限。因此,DeepMind将其定位为一种研究和创意工具,用于“交互体验”原型设计和AI智能体的评估。

DeepMind在博客中表示:“得益于Genie 2卓越的泛化能力,概念艺术和草图可以轻松转化为完全互动的环境。研究人员可以利用它快速创建丰富多样的AI训练环境,以生成模型训练期间未遇到的评估任务。”

这一技术对创意行业,特别是视频游戏领域,可能带来复杂影响。《连线》杂志的调查显示,像动视暴雪这样的公司正利用AI技术缩减成本、提升效率,其中包括大规模裁员。

与此同时,谷歌在世界模型领域的投入仍在持续增长,这一领域有望成为AI发展的下一重大突破。去年10月,DeepMind招募了此前负责OpenAI视频生成器Sora开发的蒂姆·布鲁克斯(Tim Brooks)负责视频生成技术和世界模拟器的研发。

两年前,DeepMind还从Meta挖来了因《NetHack》等电子游戏的“开放性”实验而闻名的蒂姆·罗克塔谢尔(Tim Rocktäschel)。


来源:网易科技报道

抚顺众联网络公司转载

抚顺网络公司 抚顺网络 抚顺软件公司

抚顺众联网络成立于2002年,一直专注于高品质网站建设,服务!