2026年3月16日,通义实验室宣布发布并开源首个支持影视级多场景配音的多模态大模型Fun-CineForge,同时开放高质量数据集的构建方法。该模型通过“数据+模型”的一体化设计,旨在解决影视级AI配音面临的四大难题:口型同步、情绪表达、音色一致性和时间对齐。Fun-CineForge首次引入“时间模态”,结合视觉、文本和音频信息,实现了复杂场景下的精准配音,尤其在双人及多人对话场景中表现突出。目前,该模型已开源,支持30秒以内视频片段的中英文配音,开发者可在GitHub、HuggingFace和ModelScope平台体验。
