2026年2月9日,Apple与中国人民大学联合推出新型AI模型VSSFlow,首次在单一系统中实现从无声视频同步生成环境音效与语音对话。该模型采用10层架构,融合视频帧与文本转音素序列,通过流匹配技术从噪声重建高质量音频。研究发现,语音与音效联合训练产生“互促提升”效应。项目代码已开源,模型权重及推理演示将陆续开放。