
10月27日,美团 LongCat 团队发布并开源视频生成模型 LongCat-Video。团队称,该模型在统一架构下同时支持文本生成视频(Text-to-Video)、图像生成视频(Image-to-Video)与视频续写等基础任务,并在内部与公开基准(含 VBench)测试中取得开源范围内的领先结果。


▲LongCat-Video视频生成模型在文生、图生视频基础任务上达到开源SOTA(资料图)
技术报告显示,LongCat-Video基于 Diffusion Transformer(DiT)架构,采用以“条件帧数量”区分任务的方式:文本生成视频不输入条件帧,图像生成视频输入1帧参考图,视频续写依托多帧前序内容,无需额外模型改造即可覆盖三类任务。
为提升长时序生成能力,模型在预训练阶段引入原生的视频续写任务。团队表示,模型可稳定生成分钟级长视频,并在跨帧时序一致性与物理运动合理性方面做了针对性优化,以减少色彩漂移、画质衰减与动作断裂等问题。
在效率方面,模型结合块稀疏注意力(BSA)与条件 token 缓存机制,以降低长序列推理冗余;据称在处理93帧及以上序列时,能够在效率与生成质量间保持稳定平衡。针对高分辨率、高帧率场景,模型采用“二阶段粗到精(C2F)+ BSA + 蒸馏”的组合策略,报告称推理速度较基线提升至约10.1倍。
参数规模方面,LongCat-Video基座模型约136亿参数。评测覆盖文本对齐、图像对齐、视觉质量、运动质量与整体质量等维度;团队称在文本对齐与运动连贯等指标上表现突出,并在公开基准 VBench 等测试中取得较好成绩。

LongCat 团队将此次发布定位为其“世界模型(World Model)”方向探索的一步,相关代码与模型已对外开源。上述结论与性能表述均引自团队技术报告与发布材料。
