日前,OpenAI方面发布音频生成模型Voice Engine。据了解,Voice Engine可通过简短的15秒音频样本和文本提示词,生成与音频样本提供者相似的、富有感情自然语音。
据OpenAI方面透露,早在2022年底便开发了Voice Engine,并将Voice Engine用于支持文本到语音API中的预设语音以及ChatGPT语音和朗读功能。同时在相关公告中,OpenAI还罗列了Voice Engine的一些早期应用场景,例如通过自然、富有情感的声音辅助儿童阅读,翻译视频和播客等内容,改善偏远地区的社区服务,帮助患有突发性或退化性言语病症的患者恢复声音等。
针对上述场景,OpenAI方面也给出了与少数“值得信赖”合作伙伴共同完成的技术案例。例如,儿童教育公司Age of Learning使用GPT-4与Voice Engine与学生进行个性化的交流;人工智能替代通信应用程序Livox通过使用语音引擎,为残疾人提供跨多种语言的自然声音等。
至于模型训练数据的来源,Voice Engine产品团队成员杰夫·哈里斯 (Jeff Harris)在接受媒体采访时表示,该模型是根据“许可数据和公开数据的组合”进行训练。
需要注意的是,虽然OpenAI方面公布了Voice Engine的一系列应用成果。但该公司还表示,由于合成语音有可能被滥用,他们对更广泛的发布采取了谨慎和知情的态度,选择在此时预览、但不广泛发布这项技术。
据了解,目前OpenAI方面仅向Age of Learning、Livox,以及视觉故事平台HeyGen、前线健康软件制造商Dimagi等合作伙伴小规模开放了Voice Engine访问权限。而且在与这些合作伙伴签订的条款中,OpenAI方面要求合作伙伴在使用语音样本之前要征得声音主人的同意,并明确告诉听众声音是AI生成的。此外OpenAI还实施了一系列安全措施,包括添加水印以追踪Voice Engine生成的任何音频的来源,以及主动监控其使用情况。
对此OpenAI方面表示,“通过开放小规模部署,有助于我们按照现有方法、保障措施等推进产品落地,并在不断磨合、探索过程中思考,如何将Voice Engine用于各行各业”。同时该公司还强调,“无论我们最终是否会广泛部署这项技术,让全球各地的人们了解这个发展方向都是非常重要的”。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读:
- OpenAI CEO承诺,不会与相关开发者直接竞争
- 微软Azure云平台集成OpenAI DALL-E 2:生成式AI市场日趋成熟
未经允许不得转载:零时古怪 - 中国第一时事资讯综合门户 » OpenAI发布音频生成模型,并已启动小范围测试