亚马逊发布全新文本转语音模型，号称史上最大--零时古怪为您提供最新的热点新闻资讯

日前，亚马逊人工智能研究团队方面宣布开发了一款全新的文本转语音（TTS）模型“可扩展流式文本转语音模型”（Big Adaptive Streamable TTS with Emergent abilities，BASE TTS），并号称这是目前世界上最大的文本转语音模型。

据了解，BASE TTS是一个多语言、多人的大型TTS系统，拥有9.8亿个参数，并使用了10万小时的录音数据（来自公共网站）进行训练，其中大部分为英语语音，较此前的训练数据量最高者VALL-E翻了一番，从而提高了语音自然度。同时，亚马逊研究人员还向该模型提供了其他语言的单词和短语示例，使得其能够正确发音一些常见的表达，例如“au contraire” 和 “adios, amigo”。

据悉，BASE TTS的工作原理是通过一个拥有约10亿参数的自回归转换器，将原始文本转化为离散代码（语音代码），然后通过由线性层和卷积层组成的单独训练的解码器以增量的、流式的方式将这些语音代码转化为波形。值得一提的是，BASE TTS的语音编码采用了新颖的语音标记化技术，该技术具有说话人ID解纠缠和字节对编码压缩的特点。

此外，亚马逊研究人员还测试了使用较小数据集的模型，希望能从中发现人工智能领域所说的“涌现能力”。他们发现对于文本转语音应用而言，这种飞跃发生在参数量达到1.5亿的中型数据集上，并指出这种飞跃涉及一系列语言属性，例如使用复合名词，表达情感，使用外语词汇，应用语音附加语和标点，以及在句子中将重点放在正确的单词上提出问题。

但需要注意的是，亚马逊的研究团队表示，出于对潜在滥用风险的担忧，BASE TTS将不会向公众开放，而是计划将其作为学习应用，并期望将学到的知识应用于改善文本转语音应用的整体音质。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	没有保单的碎屏“险”
	培训机构跑路没钱强执怎么办？
	为灵活就业者系上“安全带”
	世邦通信IPO前匆匆撤单
	医美纠纷事件频发法院提醒:选正规机构
	中国存款保险全额保障99%以上存款人
	数字平台消费者权益保护重在制度建设
	一品制药闯关创业板背后的三大疑问
	惊弓之鸟！经济衰退担忧升级，大宗商品暴跌
	买保险怎么避免烦心事？消保委人士有这些提醒

零时古怪 - 中国第一时事资讯综合门户

亚马逊发布全新文本转语音模型，号称史上最大

相关推荐

没有保单的碎屏“险”

培训机构跑路没钱强执怎么办？

为灵活就业者系上“安全带”

世邦通信IPO前匆匆撤单

医美纠纷事件频发法院提醒:选正规机构

中国存款保险全额保障99%以上存款人

数字平台消费者权益保护重在制度建设

一品制药闯关创业板背后的三大疑问

惊弓之鸟！经济衰退担忧升级，大宗商品暴跌

买保险怎么避免烦心事？消保委人士有这些提醒

评论