图生视频模型Follow-Your-Click公布，可指哪动哪--零时古怪为您提供最新的热点新闻资讯

日前有消息显示，由腾讯与清华大学、香港科技大学联合推出的图生视频模型“Follow-Your-Click”已在GitHub上架，同时还宣布将在后续公开代码。根据该模型的论文显示，其主要功能包括局部动画生成和多对象动画，可支持多种动作表达，例如头部调整、翅膀拍动等。

据悉，该模型可基于输入的图片，只需点击对应区域，再加上少量提示词，便可指定希望动画化的区域和动作类型，无需复杂的操作或详细描述。除了能够控制单个对象的动画之外，其还支持同时对多个对象进行动画化处理，可增加动画的复杂性及丰富性。

在目前的图生视频大模型中，通常的生成方式不仅需要用户在提示词中描述动作区域，还要提供运动指令的详细描述，过程较为复杂。同时现有图像生成视频技术在移动图像的指定部分上缺乏控制，所生成视频往往需要移动整个场景，而不是图像上的某一个区域，在精准度和灵活性上还有所欠缺。

在技术层面，“Follow-Your-Click”团队提出了第一帧屏蔽策略来提高视频生成的质量，并配备了简短运动提示数据集的运动增强模块，来提高该模型的简短提示跟随能力，因此使得其具有更简单、精确的用户控制和更好的生成性能。

据悉在“Follow-Your-Click”大模型的团队中，腾讯混元大模型团队发挥了重要作用。公开资料显示，混元大语言模型此前在在2023腾讯全球数字生态大会上正式亮相，并宣布通过腾讯云对外开放，其具备中文创作能力、复杂语境下的逻辑推理能力，以及可靠的任务执行能力。值得注意的是，该大模型拥有超千亿参数规模，预训练语料超2万亿tokens，当时就已接入包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等业务及产品。

事实上，目前研究和探索多模态模型的团队并非只有腾讯，此前OpenAI方面就曾发布文生视频模型Sora。其可根据文本提示词输出长达60秒的视频，并包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。此外该模型还能根据静态图像生成视频，并精确将图像内容动画化。

此前有消息显示，在OpenAI发布视频生成模型Sora之前，字节跳动方面就曾推出一款“颠覆性视频模型”Boximator。有消息显示，其可以通过文本精准控制生成视频中人物或物体的动作。但字节跳动相关人士随后表示，“Boximator是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距”。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

未经允许不得转载：零时古怪 - 中国第一时事资讯综合门户 » 图生视频模型Follow-Your-Click公布，可指哪动哪

	亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴
	IDC一季度国内智能手机市场排名来了！OPPO重回第一
	价格涨飞了专业相机市场正式复苏交易单价稳步上涨
	高通面向移动和XR设备推出全新游戏画面增强技术
	官方解释来了!李小龙回应华为P60 Pro充电器设计争议
	AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相
	演员严宽：拥有问界M5快一年了我的评价是遥遥领先！
	3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池
	对抗特斯拉！雷诺联手高通和谷歌打造全新软件架构
	联发科技官宣天玑9200+旗舰芯！5月10日强悍来袭

零时古怪 - 中国第一时事资讯综合门户

图生视频模型Follow-Your-Click公布，可指哪动哪

相关推荐

亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴

IDC一季度国内智能手机市场排名来了！OPPO重回第一

价格涨飞了专业相机市场正式复苏交易单价稳步上涨

高通面向移动和XR设备推出全新游戏画面增强技术

官方解释来了!李小龙回应华为P60 Pro充电器设计争议

AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相

演员严宽：拥有问界M5快一年了我的评价是遥遥领先！

3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池

对抗特斯拉！雷诺联手高通和谷歌打造全新软件架构

联发科技官宣天玑9200+旗舰芯！5月10日强悍来袭

评论