日前有消息显示,由腾讯与清华大学、香港科技大学联合推出的图生视频模型“Follow-Your-Click”已在GitHub上架,同时还宣布将在后续公开代码。根据该模型的论文显示,其主要功能包括局部动画生成和多对象动画,可支持多种动作表达,例如头部调整、翅膀拍动等。
据悉,该模型可基于输入的图片,只需点击对应区域,再加上少量提示词,便可指定希望动画化的区域和动作类型,无需复杂的操作或详细描述。除了能够控制单个对象的动画之外,其还支持同时对多个对象进行动画化处理,可增加动画的复杂性及丰富性。
在目前的图生视频大模型中,通常的生成方式不仅需要用户在提示词中描述动作区域,还要提供运动指令的详细描述,过程较为复杂。同时现有图像生成视频技术在移动图像的指定部分上缺乏控制,所生成视频往往需要移动整个场景,而不是图像上的某一个区域,在精准度和灵活性上还有所欠缺。
在技术层面,“Follow-Your-Click”团队提出了第一帧屏蔽策略来提高视频生成的质量,并配备了简短运动提示数据集的运动增强模块,来提高该模型的简短提示跟随能力,因此使得其具有更简单、精确的用户控制和更好的生成性能。
据悉在“Follow-Your-Click”大模型的团队中,腾讯混元大模型团队发挥了重要作用。公开资料显示,混元大语言模型此前在在2023腾讯全球数字生态大会上正式亮相,并宣布通过腾讯云对外开放,其具备中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。值得注意的是,该大模型拥有超千亿参数规模,预训练语料超2万亿tokens,当时就已接入包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等业务及产品。
事实上,目前研究和探索多模态模型的团队并非只有腾讯,此前OpenAI方面就曾发布文生视频模型Sora。其可根据文本提示词输出长达60秒的视频,并包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。此外该模型还能根据静态图像生成视频,并精确将图像内容动画化。
此前有消息显示,在OpenAI发布视频生成模型Sora之前,字节跳动方面就曾推出一款“颠覆性视频模型”Boximator。有消息显示,其可以通过文本精准控制生成视频中人物或物体的动作。但字节跳动相关人士随后表示,“Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距”。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
未经允许不得转载:零时古怪 - 中国第一时事资讯综合门户 » 图生视频模型Follow-Your-Click公布,可指哪动哪