日前,亚马逊人工智能研究团队方面宣布开发了一款全新的文本转语音(TTS)模型“可扩展流式文本转语音模型”(Big Adaptive Streamable TTS with Emergent abilities,BASE TTS),并号称这是目前世界上最大的文本转语音模型。
据了解,BASE TTS是一个多语言、多人的大型TTS系统,拥有9.8亿个参数,并使用了10万小时的录音数据(来自公共网站)进行训练,其中大部分为英语语音,较此前的训练数据量最高者VALL-E翻了一番,从而提高了语音自然度。同时,亚马逊研究人员还向该模型提供了其他语言的单词和短语示例,使得其能够正确发音一些常见的表达,例如“au contraire” 和 “adios, amigo”。
据悉,BASE TTS的工作原理是通过一个拥有约10亿参数的自回归转换器,将原始文本转化为离散代码(语音代码),然后通过由线性层和卷积层组成的单独训练的解码器以增量的、流式的方式将这些语音代码转化为波形。值得一提的是,BASE TTS的语音编码采用了新颖的语音标记化技术,该技术具有说话人ID解纠缠和字节对编码压缩的特点。
此外,亚马逊研究人员还测试了使用较小数据集的模型,希望能从中发现人工智能领域所说的“涌现能力”。他们发现对于文本转语音应用而言,这种飞跃发生在参数量达到1.5亿的中型数据集上,并指出这种飞跃涉及一系列语言属性,例如使用复合名词,表达情感,使用外语词汇,应用语音附加语和标点,以及在句子中将重点放在正确的单词上提出问题。
但需要注意的是,亚马逊的研究团队表示,出于对潜在滥用风险的担忧,BASE TTS将不会向公众开放,而是计划将其作为学习应用,并期望将学到的知识应用于改善文本转语音应用的整体音质。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读:
- 亚马逊发布全新Alexa语音助手,生成式AI加持
- 亚马逊推出AI聊天机器人:最快2024年1月上线
未经允许不得转载:零时古怪 - 中国第一时事资讯综合门户 » 亚马逊发布全新文本转语音模型,号称史上最大