阿里推出了两款语音新模型:Fun - CosyVoice3.5和Fun - AudioGen - VD。前者是基于参考音频的声音克隆模型,后者是无参考音频的音色设计模型。两款模型都具备“指令遵循”能力,可应用于多种场景。Fun - CosyVoice3.5在Seed - TTS基准测试的中文“困难案例”指标上表现出色,降低了生僻字句的错误率,并支持自由风格模式指令控制,解决了传统克隆模型的痛点。Fun - AudioGen - VD则专注于“从无到有”的音色设计,能够定制音色和情感,并模拟复杂的听觉环境。编辑杨娟娟,校对陈荻雁。
