日前,谷歌DeepMind团队方面公布了全新的AI基础世界模型Genie(精灵)。据了解,Genie拥有110亿参数规模,能够基于用户输入的合成图像、照片、草图等提示,生成像电子游戏一样可以进行互动、游玩的虚拟世界。但截至目前,Genie仅为研究预览版,尚未真正发布。
据了解,Genie的数据集主要是长达20万小时的公开互联网视频,其中重点是2D游戏与机器人视频。同时谷歌方面也表示,“我们的方法是通用的,适用于任何类型领域,且可以扩展到更大的互联网数据集”。
值得一提的是,Genie是在无监督和无标注的情况下进行训练,其可以专门从互联网上的视频中学习控制细粒度,即不仅能识别出哪些图像元素是可控的,还能推断出在生成环境中的潜在动作,并确保这些动作在它创造的不同环境中保持一致,这种潜在动作甚至还可以转移到人类设计的环境中。
据悉,Genie是由三个部分组成,其中包括一个潜在动作模型(Latent Action Model、LAM)、用于推断每对帧之间的潜在动作,一个视频分词器(Tokenizer)、用于将原始视频帧转换为离散token,一个动态模型、用于在给定潜在动作和过去帧token的情况下预测视频的下一帧。
对此Genie团队的负责人Tim Rocktäschel表示,“Genie作为基础世界模型,是人类迈向AGI的旅途中非常重要的一步”。英伟达高级研究科学家、通用具身智能体(Embodied Agent)研究小组负责人Jim Fan也表示,“Sora很好,但是Genie将会是具身智能体的主干之作”,以及“与Sora不同,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024年也将是基础世界模型之年”。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读:
- 谷歌方面日前承认,Gemini相关宣传视频有剪辑
- DeepMind最新研究:如何将「大语言模型」 训练到最优?
未经允许不得转载:零时古怪 - 中国第一时事资讯综合门户 » 谷歌发布基础世界模型,能生成可交互虚拟世界