小米开源首个原生端到端语音大模型
5 天前

今日,小米正式开源其首个原生端到端语音模型Xiaomi-MiMo-Audio。该模型基于创新预训练架构及上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并在预训练中观察到明显的“涌现”行为。在多项标准评测中,MiMo-Audio性能大幅超越同参数量开源模型,并在音频理解基准MMAU测试集上超越Google闭源模型Gemini-2.5-Flash,在音频复杂推理基准Big Bench Audio S2T任务中超越OpenAI闭源模型GPT-4o-Audio-Preview。