DeepMind正在博客中暗示:“得益于Genie 2杰出的泛化能力,概念艺术和草图能够轻松为完全互动的。研究人员能够操纵它快速建立丰硕多样的AI锻炼,”。
Genie 2是本年早些时候推出的Genie模子的升级版本。通过输入一张图片和一段文字描述,例如“一个可爱的机械人置身于茂密的丛林中”,Genie 2能够建立出一个及时互动的3D场景。这一能力取李飞飞创立的World Labs和以色列草创公司Decart开辟的雷同模子颇为类似。
DeepMind正在博客中写道:“Genie 2可以或许按照键盘操做做出智能反映,精准识别脚色并准确挪动。例如,模子能够判断标的目的键应节制机械人的挪动,而非树木或云朵。”。
这一手艺对创意行业,出格是视频逛戏范畴,《连线》的查询拜访显示,像动视暴雪如许的公司正操纵AI手艺缩减成本、提拔效率,此中包罗大规模裁人。
取此同时,谷歌界模子范畴的投入仍正在持续增加,这一范畴无望成为AI成长的下一严沉冲破。客岁10月,DeepMind招募了此前担任OpenAI视频生成器Sora开辟的蒂姆·布鲁克斯(Tim Brooks)担任视频生成手艺和世界模仿器的研发。
两年前,DeepMind还从Meta挖来了因《NetHack》等电子逛戏的“性”尝试而闻名的蒂姆·罗克塔谢尔(Tim Rocktäschel)。(小小)?。
鉴于当前手艺,Genie 2生成的逛戏仍存正在每分钟断根玩家进度的问题,趣味性无限。因而,DeepMind将其定位为一种研究和创意东西,用于“交互体验”原型设想和AI智能体的评估。
DeepMind暗示,Genie 2可以或许从分歧视角(如第一人称视角和等距视角)生成连贯的虚拟世界,这些场景最长可持续一分钟,大大都环境下为10至20秒。
虽然如斯,目前雷同Genie 2的模子正在模仿逛戏及3D时仍面对“人制感”、连贯性缺失以及“”等手艺挑和。例如,Decart开辟的《我的世界》模仿器Oasis存正在分辩率低、无法记住结构等问题。
DeepMind暗示,用户能够通过鼠标或键盘正在这些世界中完成腾跃、泅水等操做。通过大量视频数据锻炼,该模子具备模仿物体交互、动画结果、光照、物理现象、反射结果以及“NPC”(非玩家脚色)行为的能力。这一现象可能源于模子锻炼数据中包含了抢手逛戏的玩耍记实。然而,出于合作和保密缘由,DeepMind取其他很多AI尝试室一样,并未透露其具体的数据来历和锻炼方式。
比拟之下,Genie 2能回忆并精准衬着模仿场景中未显示的部门,这取李飞飞World Labs的模子能力不约而合。