AI视频的“1毛钱战争”与“万亿生意”
11 小时前 / 阅读约11分钟
来源:36kr
AI视频技术快速迭代,字节即梦和快手可灵路线不同,即梦重技术野心,可灵重工具理性。即梦面向大众,可灵专注专业创作者。二者商业化进程不同,未来AI视频竞争激烈。

AI视频技术,正以“周”为单位快速迭代。

两周前,PixVerse发布新项目:人在下边输入提示词,AI在上边同步生成视频,实现连续视觉输出。

Source:PixVerse

上周,Runway又上新Gen 4.5模型,AI在3秒内连切近、中、远景,运镜构图堪比专业导演,且人脸上的纹理清晰可见。

Source:Runway

不止海外,国内公司也踩死油门,字节旗下的即梦AI,核心版本两年内历经9次关键迭代;快手的可灵AI,问世以来升级30余次。厂商们“你追我赶”,一个模型月初份额很高,月底就可能被挤下去。

它们卷生卷死,在于退一步是“流量危机”,进一步是“万亿蓝海”。

抖音、快手们的成功,证明了“视频”杀时间的能力,而AI视频或许还会带来更沉浸的体验。目前,已有大量AI短视频、AI短剧杀入内容平台,抢夺用户的注意力。

随着模型能力提升和推理成本降低,狂热的“淘金潮”还会蔓延至漫剧、游戏甚至电影等领域,届时AI视频可能迎来一轮大爆发。

AI 不仅是技术进步,更是个性体验、内容生产和商业效率的“三重革命”。 对字节、快手等 视频 玩家来说,这是一 场 不得不跟的 牌局。只不过同一命题,它们打出了截然不同的牌面。

1

即梦的入口野心VS可灵的工具理性

在即梦3.5Pro和可灵2.6输入同一段提示词,对比生成的AI视频会发现,可灵的画面细节更丰富,电影感扑面而来。

但代价是,可灵排队时间超过了30分钟,而即梦无需等待,1分钟之内生成了视频,且每天都能免费使用2次。

这样的视频效果和使用体验,正是快手和字节不同技术路线选择的结果。

尽管AI视频能力日新月异,但六根手指、360度旋转手臂等物理破绽仍频繁上演,模型只是从“不可用”跨越到了“偶尔惊艳”。外媒Winsome Marketing实测发现,用Sora2生成的视频中,真正可用于发布的内容只有5%-10%,剩下90%全是废片。

这不仅浪费时间,更烧钱如流水。据第三方评测榜单Artificial Analysis,可灵2.6Pro每分钟生成成本为4.2美元,谷歌Veo 3.1平均每分钟生成成本高达10.5美元。

因此AI视频的进化史,可以视为“开盲盒式”生成效果的抗争史。只不过厂商们资源禀赋不同,有的“高举高打”,有的“精耕细作”。

即梦和可灵就是如此,二者看似功能相似,实则内核迥异:字节Seedance是多模态基础大模型,即一个模型同时支持文生图、文/图生视频等;快手不具备多模态基座,但拥有相对领先一小步的视频生成模型。

在此背景下,即梦选择了优化Seedance大模型,既实现参数和知识共享,又避免了多个模型重复维护。但视频每秒有数十帧,每帧包含数百万个像素点,每一点上都有时空信息,同步处理意味着计算量和内存需求“立方级增长”。

为了破解算力难题,字节在Seedance中嵌入扩散变换器,把任务拆给不同模块并行处理,降低计算复杂度;同时在蒸馏机制中引入特殊算法,确保小模型“又快又准”,最终实现用更少的推理步骤,生成更顺的视频。

快手则聚焦打磨视频模型基座:每次迭代,除了扩充参数和优化数据,也在产品交互层引入新功能,提升生成结果的可控性。

可灵1.0推出首尾帧功能,让模型根据首尾两张图片,生成连贯的运动变化;可灵2.0则允许用户输入参考图像和视频,让AI更能“读懂”复杂创意;可灵O1新增的“主体库”,把人和物封装成一个主体,在后续生成中保持特征稳定。

显然,可灵走的是“产品创新驱动”的务实路线,而即梦有着“突破产品技术上限”的野心。

这样的路线选择,重现了两家的“来时路”:短视频时代,抖音靠推荐算法跻身超级APP行列,快手则从工具转向内容社区,二者各凭本事割据一块江山。

到了AI时代,字节仍想重写规则,定义下一代产品、抢占新的超级入口,剪映和即梦业务负责人曾公开说过:“即梦的探索方向,是结合AI技术解锁全新的场景与产品形态,帮助人类提升创造力。”而快手管理层则多次公开强调聚焦P端(专业创作者)和B端客户,对C端“保持探索”。

当然,快手不跟字节正面硬刚,或许并非“不想”,而是“不能”——2025年,字节在算力、芯片等方面的资本投入达1500亿元,断层领先第二名阿里50%,比快手足足“多了一个0”。

字节对AI的资源倾注,堪称“饱和式”轰炸:四处招兵买马,被公认为“中国AI人才密度最高的公司”;对核心团队不设OKR和考核,鼓励工程师挑战“高效架构”和“前沿算法”。

甚至不惜“内部赛马”,2025年即梦获得的算力资源同比增加300%,而同期豆包视频模块预算被削减15%;具体到即梦,目前可供用户调用的5款视频生成模型,分别来自4个不同的研发团队,哪个更优用哪个。

AI竞争对技术、人才和资金的消耗,跟短视频早已不在一个量级。在资源约束下,“专注一个基座、凝聚一个团队智慧”的差异化路径,是更适合快手的理性选择。

其“最大化解决实际问题”的务实策略也很快有效,可灵生成视频越来越“像真的一样”,在技术不稳定时期,率先赢得了挑剔的P端和B端用户,用户总量在发布一年时间内,从600万一路飞升到4500万。

“大力出奇迹”的即梦,每一代产品都有着更低价格、更高生成效率,积攒了拉拢海量普通用户的底气。公开数据显示,截至去年9月,其月活用户达到2037万,是可灵的13倍。

而这样的路线分野,也为两家的商业化进程,写下了不同的脚本。

2

放眼长期增长的即梦VS专注即时收益的可灵

据美国知名风投公司a16z合伙人透露,Sora的30天用户留存率仅1%,60天留存率近乎0%。

这揭示了一个残酷的现实:AI视频生成,现在可能称不上一门好生意。

每一家AI视频公司都愿景着“傻瓜也能创作”,但上文说过,90%的AI视频生成后“根本不能用”,少数高质量作品底下也总跟着一长串“怎么做?”的提问——AI创作的门槛,依然高悬。

想要生成一条合格的视频,不能跟AI讲大白话,而是要输入复杂的“提示词公式”,包括主体、场景、动作、风格等,再进行一致性控制和后期调整。许多人好奇尝鲜AI,很快就会因为用不好而离开。

这导致主打大众市场的AI视频产品,集体陷入变现困局。据第三方机构非凡产研的数据,即梦AI和Minimax的海螺AI,年化营收(ARR)均未破亿。

相比之下,Runway的ARR,去年中已经突破6亿元大关;快手2025Q3业绩会披露,可灵累计收入达到7亿元,预计全年收入达10亿。

其中,可灵近70%的营收由P端订阅会员贡献,B端客户规模也超过了2万家。很显然,当下专业创作者的付费能力更强、意愿也更高。

这并不难理解,对AI输入想法,能直接获得一段科幻大片;新品发布,不用再请昂贵的模特、明星,AI广告效果直逼真人……数据显示,AI视频能将传统视频制作时间从平均7小时缩短至45分钟,制作成本省一半。

当AI视频成为打工人的生产力工具,大家会用真金白银投票,而那些“不够实用”的平台,自然会显得冷清。

但差距或许只是暂时的,将目光放远,走“大众之路”同样拥有广阔的想象空间。

字节高管曾提出:“AI对话类产品可能只是AI产品的‘中间态’,更理想的产品形态大概率需要视觉化的用户体验。”言外之意就是,视频远比文字更直观、更能让普通人“入迷”。

而随着AI技术的演进,视频创作门槛还有望进一步降低:未来可能不用输入素材、提示词,告诉AI“找出所有宝宝第一次走路的片段,配上温馨音乐”,就能自动生成视频。

这会让创作彻底平民化,引发新一轮内容爆炸,就像当年智能手机让照片、短视频普及一样。字节内部甚至判断:“长期看,即梦的价值空间可能是剪映的十倍。”若以剪映2024年近百亿收入为参照,即梦有着千亿级市场蛋糕。

为此,即梦正不遗余力铺路,试图留住更多用户。

打开APP,首页即是一条AI视频,与可灵的“工具风”大相径庭。即梦期望通过熟悉的短视频交互,把优质AI作品推荐给用户。

其还在全平台大量投流,尤其在抖音上,一度不允许其他AI产品打广告。而抖音生态正是即梦最大“杀手锏”——即梦生成的视频可直接导入剪映或抖音发布,形成“即梦生素材+剪映剪辑+抖音发布”一条龙,2025Q1该路径为即梦导流的新用户占比达37%。

在价格上,即梦也放低身段,不惜牺牲短期收入提升吸引力:其单条视频生成最低仅0.1-0.19元,而可灵最低成本比其贵上10倍,高达1.25-1.5元/条。

可以说,字节已在产品设计、流量扶持、使用门槛上做足了准备,只待“人人皆可创作”的时代东风。这种“抬头看天”的勇气值得称赞,却也有风险,毕竟没人知道“船票”何时才能兑现。

反观“低头看路”的快手,先落袋为安,未来再找机会转型,不失为一种智慧。

不过可灵也并非没有烦恼,海外AI短片《The Colorless Man》的创作流程,就给国内创作者带来了冲击:图像由ChatGPT、MidJourney和即梦处理,可灵负责视频,ElevenLabs处理语音,Dreamina处理唇形同步,Suno处理音乐,MMAudio处理音效。

如今厂商们的 模型 各有所长, 尚未出现一个在所有维度都碾压对手的 产品。而创作者 组合使用 、 用脚投票,可能会使 可灵辛苦拿下的 用户 , 被 其他 厂商 以更专精的模型、更低廉的 价格 抢走 。

这场AI视频的战争,注定是艰难而曲折的持久战。

小结

人们热议着,豆包要借春晚之力,完成AI搜索的“全民普及”;千问全面接入淘宝、支付宝、飞猪、高德等阿里生态,重塑下一代生活方式。

却常常忽略,每日刷上一两个小时的短视频世界里,另一场更深层的风暴也在悄然酝酿。

没人能断言AI视频的“未来”将以何种形态降临,无论是快手的“务实当下”,还是字节“豪赌未来”的路线,都在等待时间给出最终的答案。

但可以确定的是,科技正加速驶入一条快车道,我们能做的就是坐稳、扶好,迎接一切可能的转向与颠覆。

数据支持:洞见数据研究院