阿里巴巴推出新款 Qwen 模型，三秒音频即可克隆声音

1 天前

阿里巴巴云计算的Qwen团队近日发布了两款全新人工智能模型，这两款模型具备通过文本指令生成或克隆声音的能力。其中，Qwen3-TTS-VD-Flash模型能够依据详细描述生成声音，其性能超越了OpenAI近期推出的GPT-4o mini-tts API。另一款Qwen3-TTS-VC-Flash模型则能在仅需三秒音频的情况下复制声音，并支持在十种语言中复现，且错误率低于竞争对手。这两款AI模型不仅能处理复杂文本，还能模仿动物声音、提取声音特征。目前，用户可以通过阿里巴巴云的API访问这两款模型，也可以在Hugging Face平台上体验其演示版本。

上一篇：腾讯元宝DeepSeek模式使用量较年初增长超100倍

下一篇：美官员称已有超2.5万人有意加入特朗普政府“科技力量”项目

返回列表

热文阅读

2 天前

上春晚，豆包迎来微信红包时刻

2 天前

11月特斯拉在上海销量达7496辆！17座城市销量破千

2 天前

NAS市场爆发，国产芯片有机会吗？

2 天前

硅谷AI裁员潮的冰与火之歌