2026年3月24日,阿里巴巴通义实验室发布PrismAudio,这是首个融合强化学习与思维链的视频生成环境音框架,专注于马蹄声、风雨声等画面同步音效合成,非人物配音。该框架采用分解式推理流程,由语义、时序、美学、空间四位“老师”协同打分优化,依托高效算法Fast-GRPO,仅需200步训练即达传统方法600步性能。模型参数仅5.18亿,9秒音频生成耗时0.63秒,研究已被ICLR 2026收录,代码即将开源。