NVIDIA与马里兰大学联合发布Audio Flamingo Next，开源长音频理解模型

1 天前

据Marktechpost报道，NVIDIA与马里兰大学研究团队联合发布了Audio Flamingo Next（AF-Next），这是Audio Flamingo系列中性能最强的开源大型音频语言模型，专为解决长音频理解与复杂推理难题而设计。AF-Next基于Qwen-2.5-7B构建，支持长达30分钟的音频输入与128k上下文窗口，通过创新性提出的“时序音频思维链”技术，显著提升了模型在长音频任务中的证据聚合能力与准确性。此次开源包含AF-Next-Instruct、AF-Next-Think及AF-Next-Captioner三个变体，分别针对通用问答、多步推理及音频描述任务进行了优化。实验数据显示，该模型在20项基准测试中大幅超越同级别开源模型，并在MMAU-Pro等挑战性基准上优于Gemini 2.5 Pro，展现了卓越的泛化能力与实用价值。

上一篇：Adobe推出可操作Claude的创意工具AI助手

下一篇：World Labs开源Spark 2.0，突破Web端亿级3D高斯泼溅渲染极限

返回列表

热文阅读

1 天前

英特尔，市值暴涨8000亿元

2 天前

AI裁员，裁到了“消费”这根大动脉？

2 天前

吵了几个月，Linus终于拍板，Linux正式为AI代码“立法”：允许用AI，但锅必须人背

2 天前

超 50 辆特斯拉 Cybercab 现身得州工厂，部分已进行碰撞测试