国产AI视频三国杀:可灵、即梦、Vidu,谁会是最大赢家?
2 天前 / 阅读约18分钟
来源:36kr
产品实测、技术路线、商业前景三维度拆解,我们更看好······

1、 本文 从产品实测、技术路线、商业前景三个维度 , 分析 即梦、可灵、 Vidu这三位国产头部 玩家,谁会是最大赢家?

2、 从测试结果看, 可灵优势是表现力强,劣势是容易 “用力过猛” ; Vidu 优势是真实、细腻,劣势是节奏慢、爆发力不足 ; 即梦优势是均衡、可控,劣势是略显 “平庸”。

3、 AI视频生成背后的关键技术 是DiT ( Diffusion Transformer) 。可灵 AI在技术路线上选择了与Sora一致的DiT架构,Vidu的U-ViT则走了另一条融合之路,即梦背后也有DiT的身影,主要以字节自研Seedance1.0系列模型为主;

4、 如果说技术决定了产品的下限,那么市场、生态和推广策略则决定了它们的上限。最终赢家,极有可能在可灵和即梦之间产生。原因很简单: AI视频的终极战场在应用,在生态。

5、我们更倾向于拥有剪映的即梦。因为可灵的成功更依赖于“爆款内容”的出现,而即梦的成功则建立在“赋能工具”的普及上。工具的渗透通常比内容的爆发更持久、更具粘性。当然,这仅仅是基于当前战局的逻辑推演。

国产AI视频有了新进展。就在2025世界人工智能大会(WAIC)期间,快手旗下可灵AI高调披露最新用户数据:在全球创作者超过4500万,累计生成视频超2亿个、图片超4亿张。

生数科技旗下Vidu也在WAIC期间,发布了最新“Vidu Q1参考生”功能。生数科技CEO骆怡航介绍,据通过对模型算法层面的调整,只上传人物、道具、场景等参考图,就可以直接将多个参考元素生成为一段视频素材,以“参考图——视频生成——剪辑——成片”流程取代分镜生成工作。

生数科技CEO骆怡航

国产AI视频进展不断。就在前一阵子,一部名为《新世界加载中》的“三无剧集”悄然上线,没有演员、没有摄影机、没有灯光,宣传海报上最显眼的信息竟可能就是“可灵AI”。

这部共计9集的剧集,内容横跨动漫风、3D动画风、真人风,涵盖科幻、奇幻、荒诞喜剧、历史等多元题材,统统都是由AI来生成的。我们先来随机来感受一下它能够实现的效果:

虽然这部中国版《爱死机》目前并没有达到爆款程度,也被很多网友诟病在整体叙事上存在割裂感等等,但《新世界加载中》的诞生却显示出生成式AI在打造影视作品中所具备的潜力。

而就在《新世界加载中》诞生前后,全球范围内的战火早已点燃:OpenAI Sora虽未公测,但其放出的每一个Demo持续刷新着人们的认知上限;Luma AI的Dream Machine横空出世,以惊人的效果迅速引爆了创作者社区;谷歌、Meta等巨头也纷纷亮出自己的王牌产品。

在这场竞赛中,中国玩家们也不是旁观者。除了WAIC期间高调亮相的可灵AI、Vidu,以及字节跳动旗下一直在发力的即梦AI。它们不仅在技术上紧追不舍,更在产品落地上展现出极强的求生欲和创造力。

因此,当下的问题早已不是“AI能否制作视频”,而是“谁能做得更好、跑得更快、看得更远”。

本文将把即梦、可灵、Vidu这三位国产头部选手置于聚光灯下,通过一次同台PK,从产品实测、技术路线、商业前景三个维度,试图回答那个终极问题:

在这场“三国杀”里,谁最会是最大赢家?

同台竞技,三款国产AI视频“演技”大比拼

基于“效果才是硬道理”的原则,我们先对即梦、可灵和Vidu分别做一个实测。测试方法是用下面这张AI生成的图片作为图生视频的参考图,再配以适当的Prompt,让三位AI选手生成一段具备演技派实力的表演视频。

可以看到,这张参考图已经具备了一定的电影质感,尤其是图中的女生,眼神里已然是饱受生活折磨的无力感。接下来,我们先用下面这段Prompt生成一个5s的视频:

“固定镜头,一个亚洲女性转过头,看向镜头,忧郁的看着镜头,噗呲一下笑出来。”

然后将第一个视频的尾帧作为第二次图生视频的参考图,并输入第二段Prompt:

“固定镜头,一个亚洲女性看着镜头笑,笑着笑着,情绪失控开始笑着哭泣,表情自然不夸张,展现了人物情绪递进的过程。”

最后将两段视频拼接到一起,整体来感受一下最终效果。在这个过程中,AI能否时刻保证人物、背景、各种细节的一致性是最为关键的考量;其次,视频中AI人物的演技是否能够真人演员相媲美则是审美维度的另一关键评判标准。

(注:为公平起见,结果均采用三个AI第一次生成的结果;模型均采用免费的最新版本:即梦视频3.0、可灵2.1和Vidu 2.0。)

即梦的测试结果如下:

即梦的AI演员表演相对“规矩”,它准确地执行了“笑”的指令,并且在第二段视频中试图通过紧锁的眉头来叠加“哭”的情绪。整个过程更像是两种表情的混合,而非流畅的情绪转变。

接下来是可灵的测试结果:

可灵的AI演员是“体验派”,表演风格大开大合。它的“笑”和“哭”都表现得极为夸张,充满了戏剧张力。虽然情绪饱满,但与Prompt中“自然不夸张”的要求有所出入。此外,其免费版的生成等待时间过长(平均超过3小时),对普通用户不够友好。

最后,我们再来看下Vidu的测试结果:

Vidu的AI演员走的是“内敛”路线。它的表情变化非常含蓄,更贴近真实人物的反应。但缺点在于节奏太慢,在每段仅5秒的时长里,情绪的酝酿过程过长,导致核心的“哭戏”部分没能完全展现出来。

可以明显看到,三位AI选手都已经克服了此前AI视频生成被诟病已久的一致性问题,在同样的参考图和Prompt之下,更加注重如何提高表现完整性和审美度。

如果将三位AI选手看作三位演员,我们可以得出更直接的结论:

可灵AI:优势是表现力强,劣势是容易“用力过猛”。它最懂如何调动情绪,能生成最具视觉冲击力的画面,非常适合制作短平快的戏剧化内容。但它的问题在于对“度”的把握,容易将自然的情感夸张为舞台剧,离影视级的细腻表演还有距离。

Vidu AI:优势是真实、细腻,劣势是节奏慢、爆发力不足。它在模拟真实物理世界和微表情上最具潜力,生成的视频最有“电影感”。但它似乎过于“沉浸”在自己的节奏里,在短视频场景下,这种“前摇”过长的特点会成为致命伤,无法在黄金几秒内抓住观众。

即梦AI:优势是均衡、可控,劣势是略显“平庸”。它像一个听话的学生,能准确完成指令,但在艺术表达上缺乏惊喜。它在功能全面性(如数字人、动作模仿)上做得最好,显示出其工具属性的定位,但在纯粹的生成质量和艺术感染力上,介于可灵和Vidu之间,尚未形成自己鲜明的“人设”。

除此之外,我们还对即梦、可灵和Vidu其它功能和特点做了简单总结:

那么在内容表达上,它们三者为什么会有截然不同的表现方式,我们接下来深挖一下它们背后的技术。

DiT框架下的三条分叉路

2024年春节期间,OpenAI发布的Sora可谓是在全球范围内一举点燃了AI视频生成的热度。与此同时,它背后的关键技术DiT(Diffusion Transformer)的热度也是线性大涨。

DiT的本质从大方向来看,是将扩散模型(Diffusion Model)与Transformer架构结合,以此来实现高质量视频生成。

扩散模型的核心思想是“先加噪,再降噪”。模型首先在一个清晰的视频(或图片)上不断施加高斯噪声,直至其变为完全无序的噪点;然后,模型学习这个过程的逆过程,即如何从一个纯粹的噪声中,逐步“去噪”并还原出一个结构清晰、内容丰富的视频。

这个“去噪”网络,通常采用一个名为U-Net的卷积神经网络结构。U-Net的“U”形结构使其能够同时捕捉图像的局部细节和全局轮廓,非常适合图像处理任务。

而最初应用于自然语言处理(NLP)领域的Transformer,它的核心是自注意力机制(Self-Attention),能够高效处理长距离依赖关系。Transformer将输入数据(如句子中的单词)视为一系列“令牌”(Tokens),并通过计算令牌之间的相互关系权重,来理解整个序列的深层语义。

通过二者的结合,DiT就可以把视频压缩成一系列时空“补丁”(Spacetime Patches),这些补丁就像句子中的单词一样,被送入Transformer进行处理。这使得模型能够更好地理解视频内容在时间和空间上的全局关联性,从而生成更长、更连贯的视频。

可灵AI在技术路线上选择了与Sora一致的DiT架构。这表明它认可了Transformer在处理视频时空依赖关系上的巨大潜力。然而,快手并未止步于复现,而是在此基础上进行了多项关键的自研创新,这些创新共同指向了一个核心目标:生成更长的、高质量的视频。

它的其两大“杀手锏”分别是3D VAE和3D时空联合注意力机制。

VAE是一种变分自编码器,用于将高维数据(如视频帧)压缩到低维的“潜在空间”(Latent Space),同时保留其核心特征。传统的VAE主要处理二维图像,而可灵自研的3D VAE则专门为视频数据设计。

它不仅对单帧画面进行空间压缩,更重要的是,它将时间维度也纳入考量,将一段视频压缩成一个包含时空信息的潜在向量。这使得模型在处理数据时,起点就更高,能够更高效地学习视频的动态变化规律。

3D时空联合注意力机制是可灵生成视频的另一个关键技术。在标准的DiT中,注意力机制主要在空间补丁和时间步之间计算。而可灵的3D注意力机制则是在一个立体的时空数据块上进行操作。

它允许模型在生成某一帧的某个区域时,不仅能“看到”当前帧的其他部分(空间注意力),还能同时“回顾”过去几秒甚至几十秒的画面内容,并“预判”未来的动态趋势(时间注意力)。

这种时空联合的注意力计算方式,极大地增强了模型对长期动态的建模能力,确保了视频里人物的身份、服饰,以及场景的环境能够保持高度一致,避免了普通模型中常见的“闪烁”、“变形”等问题。

可灵架构的核心优势是将时间和空间信息高度融合处理。它不仅看“这一帧”,更看重“这一秒”甚至“这几秒”,因此在动作连贯性和长期一致性上表现最好。这解释了为什么可灵能驾驭《新世界加载中》这样更长的叙事,也能做出最具爆发力的表情,因为它对动态变化的理解更深刻。

但劣势也是比较明显,对时空信息的全局建模计算成本极高,这可能是其生成速度慢的原因之一。同时,对动态的过度强调,也可能导致其在处理静态或微表情时倾向于“脑补”出更夸张的动作。

ViduU-ViT则走了另一条融合之路。

它并非简单地用Transformer替代U-Net中的某些模块,而是将Transformer的注意力机制巧妙地整合进了U-Net的骨架中。具体来说,U-ViT保留了U-Net经典的下采样(编码)和上采样(解码)的层次化结构,但在不同层级的特征处理中,都融入了Transformer模块。

U-ViT的优势在于,它既利用了U-Net在捕捉视觉底层特征(如纹理、边缘)方面的强大能力,又借助了Transformer在理解全局语义和长程依赖(如物体运动轨迹、场景逻辑)方面的优势。这种设计被证明在模型扩展(Scaling Law)上表现优异。

基于U-ViT架构,Vidu在发布时实现了生成1080P分辨率的高清视频。其核心产品哲学可以概括为“一步到位”和“模拟真实”。

“一步到位”是指技术上的端到端(End-to-End)一次性生成,而非通过生成关键帧再进行插帧的技术。这意味着视频中的每一帧都是模型综合考虑了全局时空信息后生成的,保证了运动的流畅性和逻辑的连贯性,能够实现复杂的“一镜到底”动态镜头效果,如追焦、转场等。“模拟真实”则是指致力于模拟真实的物理规律,生成符合光影逻辑、重力效果和流体动态的场景。

这条路线的精髓在于“各司其职”。U-Net负责捕捉图像的底层细节(如纹理、光影),Transformer负责理解全局的逻辑关系。这使得Vidu在模拟真实物理规律(光影、重力)和刻画细腻质感上独具优势,其视频拥有最高的“画质感”和“真实感”。

但它对局部细节的精雕细琢,可能使其在理解和执行大幅度的、快速的动态变化时相对保守。这解释了为什么Vidu的表演显得内敛且节奏偏慢,因为它更倾向于在物理真实的框架内进行演绎。

至于即梦AI,在它的技术背后依旧也有DiT的身影,在视频生成方面,主要是以自研的Seedance 1.0系列模型为主。

根据此前公开的Seedance 1.0视频生成模型技术报告,Seedance 1.0支持文字与图片输入,可生成多镜头无缝切换的1080p高品质视频,且主体运动稳定性与画面自然度较高。

在第三方评测榜单 Artificial Analysis上,Seedance 1.0文生视频、图生视频两个任务的表现均位居首位。

Artificial Analysis 文生视频榜单

Artificial Analysis 图生视频榜单

根据技术报告披露,Seedance1.0引入精准描述模型,提升了数据多样性与可用性;通过统一的预训练框架,实现了多镜头切换与多模态输入;后训练阶段构建复合奖励系统,提升画面生动性、稳定性和美感;并且大幅提升了推理速度,最快约40秒就可以生成5秒1080p视频。

具体到产品而言,即梦采用了分级模型策略:

即梦3.0版本使用的是Seedance 1.0 mini模型。

即梦3.0 pro版本则采用了性能更强的Seedance 1.0模型。

这种模型分级的策略体现了一条典型的“实用主义”路线。通过提供不同性能层级的模型,即梦能够在保证基础生成质量的同时,有效降低普通用户的算力门槛,从而能将更多计算资源投入到丰富产品功能(如数字人、动作控制)和提升整体用户体验(例如更快的生成速度)上。

当然,这种策略也可能意味着在核心生成质量的极限追求上有所权衡。相较于业界一些专注于达到极致动态表现力和细节真实感的顶尖模型,即梦的选择更侧重于技术的普惠和产品功能的全面性。

这或许可以解释其在部分测试中,生成视频的情绪转场或细节表现力与顶尖水平存在一定差距,这可以看作是技术路径和产品定位权衡下的结果。

总的来看,技术路线直接决定了产品气质。可灵的“Sora路线”让它成为了一个表现派,Vidu的“融合路线”让它成为了一个写实派,而即梦的“实用路线”则让它成为了一个工具派

技术之外的战场:谁的生态位更优越?

如果说技术决定了产品的下限,那么市场、生态和推广策略则决定了它们的上限。

可灵最大的优势是背靠快手这个巨大的短视频流量池。它不需要从零开始获取用户,可以直接嵌入到数亿人的创作和消费链路中。快手庞大的视频数据也能为模型迭代提供最宝贵的“养料”。《新世界加载中》就是一次极佳的“内容即营销”案例。

但如何将强大的技术能力转化为普通用户也能轻松使用的产品功能,并找到清晰的商业化路径,是其核心挑战。如果只是一个“炫技”的独立工具,将很难在快手生态内生根发芽。

Vidu“清华系”的背景为它提供了强大的技术背书和人才储备,使其在底层技术创新上具备领先潜力。Vidu的定位更接近一个底层基础大模型,未来在To B(赋能影视、设计等行业)市场有巨大的想象空间。

不过它最大的挑战在于产品化和市场化。学院派团队往往在技术上追求极致,但在用户体验、市场推广和商业运营上相对薄弱。Vidu需要尽快找到自己的商业落地场景,避免陷入“叫好不叫座”的困境。

而字节跳动拥有抖音和剪映两大王牌,这为即梦提供了比快手更完整的“创作-分发”闭环。即梦的功能设计(如数字人、运镜选择)透露出其野心:它不想只做一个“生成器”,而是想成为下一代视频创作工作流的核心,深度整合进剪映等工具中。

但字节内部赛马激烈,即梦需要证明自己相对于其他AI项目的价值。同时,如何在庞大的产品矩阵中找到最合适的切入点,并教育用户接受全新的创作方式,同样充满挑战。

谁会是最大的赢家?

经过三轮对比,我们可以下一个更大胆的结论:

Vidu拥有最高的上限,但面临最崎岖的道路。它的技术路线决定了它最有潜力生成电影级的、真正以假乱真的视频内容,成为专业领域的“生产力工具”。但它能否成功越过从技术到产品的“死亡谷”,仍是未知数。

而最终的最大赢家,极有可能在可灵即梦之间产生。

原因很简单:AI视频的终极战场在应用,在生态。

可灵已经通过《新世界加载中》证明了自己在内容侧的野心和实力。如果快手能下定决心,将可灵的能力无缝融入其短视频生态,降低创作门槛,它将有机会引爆一场全民AIGC的浪潮。

即梦则更像一个潜行的刺客,它的目标是重塑“创作者”的定义。当AI视频生成能力像今天的“一键剪同款”一样被整合进剪映,它将直接赋能数千万内容创作者,其爆发力同样不可估量。

如果要在这两者中选择一个更看好的,我们更倾向于拥有剪映的即梦AI。因为可灵的成功更依赖于“爆款内容”的出现,而即梦的成功则建立在“赋能工具”的普及上。工具的渗透通常比内容的爆发更持久、更具粘性。

当然,这仅仅是基于当前战局的逻辑推演,每一个国产AI视频玩家的进展都值得肯定。这场竞赛才刚刚开始。唯一可以确定的是,无论是谁最终胜出,我们都将以前所未有的方式,见证一个“新世界”的加载。

参考链接:

1、U-ViT:

https://arxiv.org/abs/2405.04233

2、Kling:

https://ir.kuaishou.com/news-releases/news-release-details/kling-ai-advances-20-era-empowering-everyone-tell-great-stories