阿里巴巴推出新款 Qwen 模型,三秒音频即可克隆声音
1 天前

阿里巴巴云计算的Qwen团队近日发布了两款全新人工智能模型,这两款模型具备通过文本指令生成或克隆声音的能力。其中,Qwen3-TTS-VD-Flash模型能够依据详细描述生成声音,其性能超越了OpenAI近期推出的GPT-4o mini-tts API。另一款Qwen3-TTS-VC-Flash模型则能在仅需三秒音频的情况下复制声音,并支持在十种语言中复现,且错误率低于竞争对手。这两款AI模型不仅能处理复杂文本,还能模仿动物声音、提取声音特征。目前,用户可以通过阿里巴巴云的API访问这两款模型,也可以在Hugging Face平台上体验其演示版本。