零时古怪 - 中国第一时事资讯综合门户

零时古怪资讯网
提供最新的热点新闻资讯
首页 > 更多 > 百家星谈

亚马逊发布全新文本转语音模型,号称史上最大

日前,亚马逊人工智能研究团队方面宣布开发了一款全新的文本转语音(TTS)模型“可扩展流式文本转语音模型”(Big Adaptive Streamable TTS with Emergent abilities,BASE TTS),并号称这是目前世界上最大的文本转语音模型。

据了解,BASE TTS是一个多语言、多人的大型TTS系统,拥有9.8亿个参数,并使用了10万小时的录音数据(来自公共网站)进行训练,其中大部分为英语语音,较此前的训练数据量最高者VALL-E翻了一番,从而提高了语音自然度。同时,亚马逊研究人员还向该模型提供了其他语言的单词和短语示例,使得其能够正确发音一些常见的表达,例如“au contraire” 和 “adios, amigo”。

据悉,BASE TTS的工作原理是通过一个拥有约10亿参数的自回归转换器,将原始文本转化为离散代码(语音代码),然后通过由线性层和卷积层组成的单独训练的解码器以增量的、流式的方式将这些语音代码转化为波形。值得一提的是,BASE TTS的语音编码采用了新颖的语音标记化技术,该技术具有说话人ID解纠缠和字节对编码压缩的特点。

此外,亚马逊研究人员还测试了使用较小数据集的模型,希望能从中发现人工智能领域所说的“涌现能力”。他们发现对于文本转语音应用而言,这种飞跃发生在参数量达到1.5亿的中型数据集上,并指出这种飞跃涉及一系列语言属性,例如使用复合名词,表达情感,使用外语词汇,应用语音附加语和标点,以及在句子中将重点放在正确的单词上提出问题。

但需要注意的是,亚马逊的研究团队表示,出于对潜在滥用风险的担忧,BASE TTS将不会向公众开放,而是计划将其作为学习应用,并期望将学到的知识应用于改善文本转语音应用的整体音质。

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

  • 亚马逊发布全新Alexa语音助手,生成式AI加持
  • 亚马逊推出AI聊天机器人:最快2024年1月上线

 

未经允许不得转载:零时古怪 - 中国第一时事资讯综合门户 » 亚马逊发布全新文本转语音模型,号称史上最大

分享到:更多 ()
来源: 编辑:cxr4186

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表