近日有消息显示,Robotics at Google、柏林工业大学以及Google Research团队联合推出了一款目前最大的视觉语言模型PaLM-E,其最终的参数量高达5620亿。据了解,这个模型具备理解图像、理解生成语言和处理复杂机器指令的能力。
对此谷歌方面表示,该模型还具有环境适应性反应,并有能力面对可能出现的意外状况。有消息称,或因该模型集成于一个控制回路中,因此对干扰具备一定的鲁棒性。
据悉,由于该模型是通过PaLM-540B语言模型与Vit-22B视觉Transformer模型结合而成,其核心是强大的语言处理能力,亮点则在于该模型获取并处理视觉数据后,能利用视觉数据增强自身的语言处理能力。例如,可通过交通标志的图片解答对应的交通规则、通过食材图片了解制作流程,或是通过输入指令来指导机器人完成相对复杂的动作。
据了解,PaLM-E还有一项较为突出的优势,即具备强悍的正迁移能力。在谷歌方面公布的相关测试结果中,研究人员认为,基于PaLM-E具备自主学习的能力,因此其能够在不同实体上执行规划与跨长度任务,例如该模型在指导机器人完成“按颜色分类色块”后,还能进一步指导机器人完成将绿色色块推至从未见过的摆件旁。
对此有观点认为,虽然目前PaLM-E给予机器人的指导看起来并非十分复杂,但随着数据训练的更迭,其或将能够赋予机器人更多的思考能力,未来有望能够更合理的规划和执行人类发出的命令,并在工业应用和设计上取得较大的突破。
据了解,在人工智能赛道,微软此前在今年2月也曾发表过上述研究中提到的类似案例,即通过ChatGPT编写的程序来指导无人机如何寻找饮料。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读:
- vivo V27现身谷歌Play数据库,或即将正式亮相
- 谷歌Gboard输入法或加入新功能,可自动生成图像
未经允许不得转载:零时古怪 - 中国第一新闻资讯综合门户 » 谷歌推出视觉语言模型PaLM-E,参数量达5620亿