阿里云发布Qwen3-TTS系列语音合成模型
2 小时前

据通义千问官方消息,2025年12月24日,阿里云正式推出Qwen3-TTS系列两款新一代语音合成模型:Qwen3-TTS-VD-Flash(音色创造模型)与Qwen3-TTS-VC-Flash(音色克隆模型)。Qwen3-TTS-VD-Flash支持通过自然语言指令定制音色、韵律、情感及人设,实现精细化调控,在InstructTTS-Eval评测中表现优于GPT-4o-mini-tts等模型。Qwen3-TTS-VC-Flash支持3秒级音色克隆,可生成中、英、日、韩、法、德、西、意、葡、俄等10种语言语音,在多语种测试中词错误率优于MiniMax、ElevenLabs等主流方案。目前,两款模型均已在阿里云百炼平台上架Flash版本API,可满足工业级语音合成需求。