NVIDIA与马里兰大学联合发布Audio Flamingo Next,开源长音频理解模型
1 天前

据Marktechpost报道,NVIDIA与马里兰大学研究团队联合发布了Audio Flamingo Next(AF-Next),这是Audio Flamingo系列中性能最强的开源大型音频语言模型,专为解决长音频理解与复杂推理难题而设计。AF-Next基于Qwen-2.5-7B构建,支持长达30分钟的音频输入与128k上下文窗口,通过创新性提出的“时序音频思维链”技术,显著提升了模型在长音频任务中的证据聚合能力与准确性。此次开源包含AF-Next-Instruct、AF-Next-Think及AF-Next-Captioner三个变体,分别针对通用问答、多步推理及音频描述任务进行了优化。实验数据显示,该模型在20项基准测试中大幅超越同级别开源模型,并在MMAU-Pro等挑战性基准上优于Gemini 2.5 Pro,展现了卓越的泛化能力与实用价值。