2026年1月29日,阿里千问团队正式开源Qwen3-ASR系列语音识别模型,包括Qwen3-ASR-1.7B、Qwen3-ASR-0.6B两个语音识别模型,以及Qwen3-ForcedAligner-0.6B语音强制对齐模型。该系列模型支持52个语种与方言的识别。其中,1.7B模型在中文、英文、中文口音及歌唱识别等场景下达到SOTA水平,0.6B模型则在性能与效率间取得平衡,128并发异步服务推理吞吐量达2000倍,10秒可处理5小时音频。强制对齐模型支持11个语种的高精度时间戳预测,精度超越传统模型。此次开源还包括模型结构、权重及推理框架。
