2026年3月24日,上海创智学院刘鹏飞团队与Sand.ai联合宣布,正式开源全球首个号称最“懂人”的音视频联合生成基座模型——daVinci-MagiHuman。该模型采用150亿参数的单流Transformer架构,通过纯自注意力机制实现文本、视频、音频的联合建模,摒弃跨注意力与模态分支,解决了音视频不同步、架构设计复杂及生成速度慢的难题。模型支持多语言音视频生成,在消费级GPU上可实现近实时生成,已在GitHub与Hugging Face平台开源全部模型权重与推理代码。