阿里云开源两款基座模型，覆盖语音理解、生成--零时古怪为您提供最新的热点新闻资讯

日前，阿里云通义实验室方面发布并开源了语音大模型项目FunAudioLLM，旨在深化人类与大型语言模型（LLMs）之间的自然语音交互体验。据了解，这一框架的核心是SenseVoice和CosyVoice两个创新模型。

其中，CosyVoice是一款基于语音量化编码的语音生成大模型，采用了总共超15万小时的数据训练，通过对语音进行离散化编码，并依托大模型技术，可实现自然流畅的语音合成体验。与传统语音合成技术相比，CosyVoice具有韵律自然、音色逼真等特点，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

据悉，CosyVoice支持中英日粤韩5种语言，同时还支持以自然语言或富文本形式对合成语音进行情感等维度的细粒度控制，仅需要3~10s的原始音频即可生成模拟音色，甚至包括韵律、情感等细节。

目前CosyVoice具有基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct等多个版本，可满足不同场景下的使用需求。值得一提的是，阿里云通义实验室方面还使用预训练的情感分类模型评价了CosyVoice的情感控制能力，主要包括高兴/悲伤/生气/害怕/反感等5种高表现力的语音情感。据了解，CosyVoice-300M本身具备一定从文本内容中推断情感的能力，经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高，具备更强的情感控制能力。

而SenseVoice是一个基础语音理解模型，专注于高精度多语言语音识别、情感辨识和音频事件检测，具备多种语音理解能力，涵盖了自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED）。据悉，SenseVoice采用超过40万小时数据训练，支持超过50种语言，识别效果上优于Whisper模型，中文与粤语上提升50%以上。

目前，SenseVoice具有SenseVoice-Small、SenseVoice-Large两个版本。其中，SenseVoice-Small是一款仅含编码器的轻量级基础语音模型，可以快速处理语音数据，并在有需要时迅速做出响应，适用于对延迟敏感的应用场合，如实时语音交互系统。SenseVoice-Large则是一个包含编码器和解码器的大型基础语音模型，专注于更精确的语音理解，拥有对更多语言的支持能力，适合于对识别精度有更高要求的场景，可以处理更复杂的语音输入，并生成更为准确的结果。

基于SenseVoice和CosyVoice模型，FunAudioLLM可支持较多的人机交互应用场景，例如音色情感生成的多语言语音翻译、情绪语音对话、互动播客、有声读物等。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴
	IDC一季度国内智能手机市场排名来了！OPPO重回第一
	价格涨飞了专业相机市场正式复苏交易单价稳步上涨
	高通面向移动和XR设备推出全新游戏画面增强技术
	官方解释来了!李小龙回应华为P60 Pro充电器设计争议
	AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相
	演员严宽：拥有问界M5快一年了我的评价是遥遥领先！
	3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池
	对抗特斯拉！雷诺联手高通和谷歌打造全新软件架构
	联发科技官宣天玑9200+旗舰芯！5月10日强悍来袭

零时古怪 - 中国第一时事资讯综合门户

阿里云开源两款基座模型，覆盖语音理解、生成

相关推荐

亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴

IDC一季度国内智能手机市场排名来了！OPPO重回第一

价格涨飞了专业相机市场正式复苏交易单价稳步上涨

高通面向移动和XR设备推出全新游戏画面增强技术

官方解释来了!李小龙回应华为P60 Pro充电器设计争议

AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相

演员严宽：拥有问界M5快一年了我的评价是遥遥领先！

3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池

对抗特斯拉！雷诺联手高通和谷歌打造全新软件架构

联发科技官宣天玑9200+旗舰芯！5月10日强悍来袭

评论