美摄科技张瑞全：拓展AIGC+数字人的想象空间--零时古怪为您提供最新的热点新闻资讯

随着人工智能的快速发展，视音频技术也迎来了蓬勃的发展期。3月31日至4月1日，国内音视频领域盛会LiveVideoStackCon在北京成功举办，众多业内企业、技术专家和学者齐聚一堂，共同探讨多媒体音视频技术在技术升级、业务场景和应用创新等方面的实践和探索。

作为视音频技术领域的代表企业之一，北京美摄网络科技有限公司连续六年参会，展示了在AIGC、数字人等领域的领先成果，展现了美摄科技的技术实力和创新能力。

美摄科技研发中心高级AI算法专家张瑞全出席活动，并围绕数字化内容生产快速落地分享了自己的见解。

美摄AIGC数字人基于虚拟视频合成技术，通过综合利用计算机视觉、图像处理和深度学习等技术，可以在无实物的条件下生成虚拟视频。目前主要有三种视频生成技术：语音驱动、动作驱动以及换脸。

目前主要存在两个技术难点：一是表情和口型预测，合成视频容易出现音色改变、口型抖动、口型失真等干扰；二是视频帧渲染，如何实现真实面部渲染、防止表情失真，如何获取训练数据，都是要解决的问题。

张瑞全向与会者介绍了美摄研发中心实现表情和口型预测、3D人脸渲染及合成的技术原理，并详细比较了不同方法的优缺点。据他介绍，美摄科技研发团队已经拿出了相对成熟的技术方案，实现了逼真的虚拟视频合成效果。

以此为依托，张瑞全团队开发出多种借助AI技术快速生成数字人形象的产品应用，包括照片自动生成形象、视频自动生成形象以及GLB模型自动转换形象三种方式。操作者只需上传一张照片或一段视频，录入预设的文本内容，系统就可以自动生成对应的数字人形象，并配以逼真的语音播报口型，大大缩短制作周期。

他特别提到，以GLB生成数字人形象时，可以将其转换为美摄自研的3D文件格式“.ARSCENE”，转换后的效果包可以通过MeisheSDK在不同的平台上实时渲染驱动。GLB文件是以图形语言传输格式保存的3D模型，它以二进制格式存储有关3D模型的信息，包括节点层级、摄像机、材质、动画和网格。

而谈到近来大热的ChatGPT，张瑞全表示团队目前主要关注两个应用方向。一是智能数字人语音助手，将ChatGPT的混合语义理解能力和美摄已有的语音交互系统相结合，当用户提问一些开放性问题时，数字人助手可以给出更好的回答。

二是将ChatGPT、视频剪辑和数字人相结合，用户只需填写一句话，设定好要求，系统就可以通过ChatGPT返回分镜脚本，并从中提取所需标签，由系统从媒资库中智能寻找对应的图像和视频资料。用户可以选择推荐素材，一键套用模板，直接形成预览视频，极大提高视频创作效率。

据张瑞全分享，美摄科技的AIGC数字人方案已经成功落地于多个一线品牌，在智能汽车、智能手表、智能手机、社交软件等领域的产品中都取得了出色的应用效果，为这些产品注入了更多创新和智能化元素。

	曝华为和荣耀一大波新折叠屏在路上包括荣耀90 Pocket
	理想L9又陷质量危机？驾驶位的按摩功能和腰托功能失效
	曝杭州一哪吒汽车行驶中突然起火！司机：手机都没拿
	期待！曝watchOS 10将为Apple Watch带来重大变化
	村民上坟致停墓地旁的奥迪被烧成空壳网友:这祭品壕
	A股公司已有51位“90后”董事长网友：这就叫年少有为？
	岚图公布最新销量成绩：3月交付3027辆同比上涨116%
	新品多多！除了PS5 Pro外曝索尼还有一款新硬件产品
	realme真我11 系列工信部证件照及配置参数曝光
	时代落幕！大众经典高尔夫停产但是保留后续电动车型

零时古怪 - 中国第一新闻资讯综合门户