零时古怪 - 中国第一时事资讯综合门户

零时古怪资讯网
提供最新的热点新闻资讯
首页 > 科技

OpenAI发布音频生成模型,并已启动小范围测试

日前,OpenAI方面发布音频生成模型Voice Engine。据了解,Voice Engine可通过简短的15秒音频样本和文本提示词,生成与音频样本提供者相似的、富有感情自然语音。

据OpenAI方面透露,早在2022年底便开发了Voice Engine,并将Voice Engine用于支持文本到语音API中的预设语音以及ChatGPT语音和朗读功能。同时在相关公告中,OpenAI还罗列了Voice Engine的一些早期应用场景,例如通过自然、富有情感的声音辅助儿童阅读,翻译视频和播客等内容,改善偏远地区的社区服务,帮助患有突发性或退化性言语病症的患者恢复声音等。

针对上述场景,OpenAI方面也给出了与少数“值得信赖”合作伙伴共同完成的技术案例。例如,儿童教育公司Age of Learning使用GPT-4与Voice Engine与学生进行个性化的交流;人工智能替代通信应用程序Livox通过使用语音引擎,为残疾人提供跨多种语言的自然声音等。

至于模型训练数据的来源,Voice Engine产品团队成员杰夫·哈里斯 (Jeff Harris)在接受媒体采访时表示,该模型是根据“许可数据和公开数据的组合”进行训练。

需要注意的是,虽然OpenAI方面公布了Voice Engine的一系列应用成果。但该公司还表示,由于合成语音有可能被滥用,他们对更广泛的发布采取了谨慎和知情的态度,选择在此时预览、但不广泛发布这项技术。

据了解,目前OpenAI方面仅向Age of Learning、Livox,以及视觉故事平台HeyGen、前线健康软件制造商Dimagi等合作伙伴小规模开放了Voice Engine访问权限。而且在与这些合作伙伴签订的条款中,OpenAI方面要求合作伙伴在使用语音样本之前要征得声音主人的同意,并明确告诉听众声音是AI生成的。此外OpenAI还实施了一系列安全措施,包括添加水印以追踪Voice Engine生成的任何音频的来源,以及主动监控其使用情况。

对此OpenAI方面表示,“通过开放小规模部署,有助于我们按照现有方法、保障措施等推进产品落地,并在不断磨合、探索过程中思考,如何将Voice Engine用于各行各业”。同时该公司还强调,“无论我们最终是否会广泛部署这项技术,让全球各地的人们了解这个发展方向都是非常重要的”。

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

  • OpenAI CEO承诺,不会与相关开发者直接竞争
  • 微软Azure云平台集成OpenAI DALL-E 2:生成式AI市场日趋成熟

 

未经允许不得转载:零时古怪 - 中国第一时事资讯综合门户 » OpenAI发布音频生成模型,并已启动小范围测试

分享到:更多 ()
来源: 编辑:cxr4186

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表