腾讯元宝发布PrismAudio模型,高效实现视频与环境音的精准同步生成
7 小时前

2026年3月24日,腾讯元宝推出创新框架PrismAudio,专注解决视频生成高保真环境音难题。该框架通过融合“思维链”与强化学习,采用“先规划,后执行”的生成范式,确保生成的声音在语义、时序、美学和空间四个维度上与视频内容严格对齐。PrismAudio参数量为5.18亿,生成9秒音频仅需0.63秒,兼具高性能与高效率,已被ICLR 2026接收。