通义实验室发布视频生成环境音框架 PrismAudio - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

通义实验室发布视频生成环境音框架 PrismAudio

7 小时前

2026年3月24日，阿里巴巴通义实验室发布PrismAudio，这是首个融合强化学习与思维链的视频生成环境音框架，专注于马蹄声、风雨声等画面同步音效合成，非人物配音。该框架采用分解式推理流程，由语义、时序、美学、空间四位“老师”协同打分优化，依托高效算法Fast-GRPO，仅需200步训练即达传统方法600步性能。模型参数仅5.18亿，9秒音频生成耗时0.63秒，研究已被ICLR 2026收录，代码即将开源。

上一篇：腾讯元宝发布PrismAudio模型，高效实现视频与环境音的精准同步生成

下一篇：AI大事件汇总（03月24日）

返回列表

热文阅读

2 天前

刚刚，马斯克晶圆厂，正式发布

2 天前

又一笔记本厂商 Ninkear 陷入 CPU 虚标争议，官方承诺调查

1 天前

撕开英伟达的算力围城

1 天前

OpenAI又摊上事了，大英百科状告ChatGPT：查资料也算侵权