阿里语音大模型登顶Speech Arena国产第一,全球第五
15 小时前

5月28日,全球权威AI评测平台Artificial Analysis的语音排行榜(Speech Arena)更新,阿里巴巴语音大模型Fun-Realtime-TTS-Preview以1190分Elo评分位列全球第五、国产第一,在ASR(语音转文字)、Chat(语音理解与对话)及TTS(文字转语音)三个赛道均获全国第一。此前,5月20日阿里云峰会上发布的Fun-Realtime-ASR和Fun-Realtime-AudioChat已在“听准(词错误率)”“听懂(语音推理)”“会聊(对话流畅度)”三项指标上超越国际顶尖模型,登顶全球榜首。Fun-Realtime-ASR词错误率低至1.8%,支持毫秒级响应、30余种语言及7大中文方言,能精准识别20多个地区口音;Fun-Realtime-AudioChat在语音推理和对话流畅度上分别获97.6%和97.8%的高分,接近人类水平。目前,这些模型已应用于千问App、高德地图、钉钉等场景,提供实时语音转文字、智能导航交互及会议纪要生成等服务。