谷歌推出视频大模型Lumiere，采用STUNet架构--零时古怪为您提供最新的热点新闻资讯

日前，谷歌方面披露了一款名为Google Lumiere的大规模视频扩散模型，号称能够一次生成“完整、真实、动作连贯”的视频。目前Lumiere仍处于研究阶段，谷歌方面尚未提及如何或何时将其用作面向用户的工具。

据了解，Lumiere具有视频编辑/修复、图生视频、文生视频、风格化生成、动作笔刷等能力。其中，视频编辑/修复能力允许用户编辑视频，或者在视频中插入新的对象。例如，Lumiere可根据用户的指令修改原视频中人物所穿衣服的颜色，风格化生成是指Lumiere能生成各种指定艺术风格的视频，动作笔刷则是指Lumiere能够对图像的单个部分进行动画化处理、即让被用户标记的静态区域“动起来”。

据官方透露，Lumiere一次可生成80帧视频（16fps下5秒视频、24fps下约3.34秒视频），超越Gen-2和Pika。而且谷歌方面相关研究人员还提及，5秒的视频长度实际上就“已经超过大多数媒体作品中的平均镜头时长”。

值得一提的是，与其他模型不同，Lumiere采用了谷歌自研的Space-Time U-Net（STUNet）架构，以解决AI视频长度不足、运动连贯性和一致性低、伪影重等一系列问题。

谷歌方面透露，目前行业内大多数视频大模型还无法生成时间长、质量佳、动作连贯逼真的内容，这是因为这类模型通常“分段生成视频”，即首先产生几张关键帧，然后用“时间超级分辨率（Temporal Super-Resolution）”技术，生成关键帧之间的视频文件，这种方法虽然能够节省RAM，但难以生成“连贯逼真”的视频。而STUNet架构则能够在空间和时间上同时“降采样（Downsample）”信号，从而在“更紧凑的时空中进行更多运算”，令Lumiere生成持续时间更长、动作更连贯的视频。

根据谷歌介绍的Lumiere基础特性显示，其建立在一个经过预先训练的“文生图”模型基础上，其首先会让基础模型生成视频分帧的基本像素草稿，然后通过空间超分辨率（SSR）模型逐步提升分帧分辨率及细节，并利用“Multidiffusion”通用生成框架提升模型稳定性，从而确保了最终输出的视频一致性和连续性。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	美联储官员暗示短期内不会降息
	春节消费潜力足多部门联手培育新增长点
	A股市场中长期投资价值凸现 “国家队”增持释放做多信号
	住房城乡建设部：持续做好保障性住房项目谋划和储备
	农历新年假期预计750万人次进出香港
	市场如何保供？怎样促进节日消费？――多部门解读春节促消费相关举措
	中央汇金公司将持续加大ETF增持力度
	中美经济工作组举行第三次会议
	证监会：暂停新增证券公司转融券规模存量逐步了结
	订单排满！腐乳变“东方奶酪”？在海外卖爆了！

零时古怪 - 中国第一时事资讯综合门户

谷歌推出视频大模型Lumiere，采用STUNet架构

相关推荐

美联储官员暗示短期内不会降息

春节消费潜力足多部门联手培育新增长点

A股市场中长期投资价值凸现 “国家队”增持释放做多信号

住房城乡建设部：持续做好保障性住房项目谋划和储备

农历新年假期预计750万人次进出香港

市场如何保供？怎样促进节日消费？――多部门解读春节促消费相关举措

中央汇金公司将持续加大ETF增持力度

中美经济工作组举行第三次会议

证监会：暂停新增证券公司转融券规模存量逐步了结

订单排满！腐乳变“东方奶酪”？在海外卖爆了！

评论