“快乐马”后发赶超,阿里截胡快手字节。
4月14日,字节跳动旗下火山引擎正式上线Seedance2.0 系列API服务,企业和个人用户都可调用其视频生成能力。
早期,上述服务需要高额预付、动辄千万级“最低消耗”。
算力足够的情况下,API大面积开放几乎算是大模型商业化的主引擎。但有意思的是,近期被不少用户诟病排队时间长、变相涨价背刺用户的Seedance2.0,怎么突然就全面开放API了呢?
这背后,或许有上周爆火的HappyHorse的推动。

4月7日,HappyHorse以匿名身份空降权威AI平台Video Arena盲测榜单上。在图生视频(无音频)榜单上,它拿到1411分登顶,把Seedance 2.0甩出约55分;在文生视频(无音频)一栏,1379分同样排在字节跳动Seedance 2.0、快手可灵AI 3.0、昆仑万维SkyReels V4等公开产品前。
三天之后,阿里官方出面认领了这匹“千里马”。
今年3月34日, OpenAI 宣布关停 Sora,所有人都以为,Seedance 2.0 要在AI视频生成模型领域一统天下,阿里却出其不意,截胡字节Seedance与快手可灵。
AI视频生成模型这一赛道,三国杀格局雏形初显,而且中国公司在全球拿下了主导权。
2024年以来,AI视频生成模型之所以能实现从“玩具”到“工具”的质变,其核心驱动力在于底层技术范式的根本性转变——从基于海量数据统计的模式匹配,升级为对物理世界规律进行模拟与理解的“世界模型”。这一转变解决了此前技术无法逾越的两大鸿沟,即物理合理性与长期一致性。其中,长期一致性更是实现影视级应用的前提。
据媒体报道,HappyHorse用一个统一的Transformer同时处理视频和音频,一次推理直接输出带声音的成片,不需要后期拼接。这种有点特别的技术架构(单流Transformer架构),对提升长期一致性很有优势。
统一的 Transformer直接处理长序列的混合Token,其自注意力机制能够捕捉视频帧与音频帧之间长距离的依赖关系。

这比用多个独立模型分别处理再协调要简单直接,减少了信息在模块间传递的损耗,理论上更有利于维持长时序的连贯叙事。
根据Artificial Analysis的评测指标(满分5分),HappyHorse在物理一致性方面得分为4.52,视觉质量得分为4.80,文本对齐得分为4.18。这表明其在基础一致性方面表现良好,但在复杂场景下的长期一致性仍有提升空间。
不过参考Sora的经验可知,长期一致性表现好≠商业可用性表现好。
根据央视财经的报道,Sora在实际应用中,其长期一致性高度依赖大模型的“记忆”能力, 商业可用率极低,仅5%-10%的生成视频能用于初步筛选,更像一个不可控的“抽卡游戏”。
Sora的关停,也并非源于技术升级的困难,而是一笔算不过来的经济账。据Appfigures估算,Sora上线以来的应用程序内总收入仅约210万美元,投入产出比接近2500:1,堪称AI史上最昂贵的“技术烟花”。
硅谷风投机构a16z合伙人Olivia Moore曾在社交媒体晒出SensorTower的监测截图,显示Sora APP的30天用户留存率为1%,60天留存率0%。如此低的留存率,显然不符合商业应用的要求。
AI发展到了今天,资本对无法变现、耗资巨大的技术突破态度已经足够理智,甚至是冷酷了。所以,正在筹备上市的OpenAI只能关停Sora,并退回和迪士尼的10亿美元合作款项。
而且OpenAI也需要集中精力继续推进世界模型的研发。毕竟从某种意义上来说,并不存在单独的视频大模型,视频大模型更像是是世界模型和多模态技术融合进程中的阶段性里程碑。
目前顶级的视频模型几乎都基于DiT架构,这个架构的前身是图像生成 Diffusion,下一步很可能就是Omni-Model。视频只是这些模型在时间维度上插了帧,并在数据清洗时喂入了大量物理世界因果片段。
做视频,是验证时空预测能力的最低门槛。能做出视频大模型的公司,理论上也可以把这种技术用来研发其他垂直领域的大模型 ——如果有足够多优质的真实数据用来训练。
阿里的目标,显然也不只是做出一个受欢迎的视频生成工具。
视频是AI大模型很好的垂直应用方向,因为从流量逻辑看,视频是AI目前唯一能无缝嵌入娱乐、社交、电商三大现金牛领域的模态。
ChatGPT(文本)的月活是亿级,TikTok(视频)的日活是十亿级。人类天生就懒于阅读文字,乐于消费视频。字节能深入所有互联网巨头的业务腹地,也是因为它抓住了视频这个关键点。
抖音上的视频流数据,涵盖人物行为、物体运动、场景交互等多维度的动态信息,每一帧都是真实世界规律的记录。用这种优质数据训练出的垂直应用AI,很容易就赢在起跑线上。
根据极客公园测算,Seedance2.0生成15秒视频的可用率或达到90%,相较此前行业内大概20%的平均值,提升幅度较大。技术实力与商业可用性的双重提升,让Seedance2.0的爆火很容易理解。
而且Seedance 2.0的商业化推进,节奏感极强。先用“宠物猫狗暴揍哥斯拉”等病毒式模板引爆社交媒体的全民二创热潮,完成零成本的流量引爆和用户教育,在口碑和需求双双达到顶峰后,立即启动商业化变现。
3月4日,火山引擎公布商用定价:包含视频输入的场景28元/百万tokens,不含视频输入46元/百万tokens,折合纯视频生成成本约0.95元/秒。
紧接着,字节采取差异化定价面向市场、降低门槛开放公测的策略,于4月2日正式面向企业用户开放API申请。至此,Seedance2.0完成了从网红AI玩具到企业生产工具的身份跃迁。
这也验证了AI产业投资逻辑的变化,无论是公司内部的资金还是外部的资金,都会流向更能垂直应用、快速变现、贡献ROI的地方。B端和C端的用户在付费时,也同样遵从这个底层逻辑。
一个值得注意的细节是,HappyHorse原生支持英语、普通话、粤语、日语、韩语、德语、法语的唇形同步,这很可能是为了让HappyHorse生成的视频能进入到电商(包括跨境电商)等实际应用场景中。
毕竟张迪作为快手可灵和阿里HappyHorse之父,不仅懂技术,也很懂业务(这一点从他的职业履历就能看出),天然就擅长把业务思维带入到HappyHorse的技术研发中。
一个佐证是,快手可灵的商业化效果已经有了财报数据支撑。2025年第四季度,可灵AI营业收入达到3.4亿元;2025年12月单月收入突破2000万美元,年化收入运行率(ARR)达到2.4亿美元。
而且,HappyHorse所属的阿里ATH创新事业部,早已喊出“创造Token、输送Token、应用Token”的口号。这种以“Token消耗量”为核心KPI的组织设计,决定了其下所有技术尝试,其实都会落脚在商业化应用上。
和Seedance 2.0一样,HappyHorse从匿名冲榜到官宣认领,再到计划开放API、接入阿里百炼MaaS平台,商业化推进的节奏也非常快。
考虑到HappyHorse团队负责人郑波同时兼任阿里妈妈CTO,未来HappyHorse的应用很可能要与电商业务深度绑定。
让AI与原本的核心业务深度协同,带来更大的生态繁荣,是现在每个互联网巨头都看重的事。除此之外,阿里还有一个多年的心愿,即打造流量入口,反哺电商等核心业务。
理想情况下,HappyHorse可以同时踩中这两个关键点。
作为视频生成工具,HappyHorse可以应用于商品广告、虚拟主播等电商业务场景中。如果还能在AI内容生成的源头占据一席之地,就能为电商交易等业务提供内生流量,从而构建“内容-交易-履约”的完整闭环。
这并非毫无根据的想象,毕竟Seedance2.0已经杀入电商领域了。
4月2日,AI Agent 公司 NoDesk AI 发布旗下产品 DeskClaw 新版本,正式接入Seedance2.0。这是 Claw 赛道先一步明确聚焦垂直电商、也是电商领域首批接入 Seedance2.0 的 AI 产品。
对于大部分的投资者和从业人员来说,阿里作为电商一哥,似乎没有理由做不到类似的事情。
HappyHorse这种阿里系视频生成工具的出现,某种意义上来说是符合公众预期的,毕竟,让商家可以在电商平台上直接用上稳定、可靠的视频生成工具,才是逻辑最顺畅的做法。
而内容生态领域,只要HappyHorse足够稳定、可靠并且便宜,同样可以杀出一片天地来。
对大部分的内容创作者来说,成本可控是非常重要,并不只是简单的价格高了或者低了的问题。
无论是个人UP主、小型工作室还是MCN机构,其内容生产都有预算和周期。一个价格频繁波动、排队时间无法预估的工具,会直接打乱整个生产计划,让项目无法报价、无法按期交付。
Seedance2.0现在恰恰就有这样的问题和风险。一方面,高峰期普通用户排队可达8万人,等待时间超过7小时,即便是付费高级会员也难以幸免。
另一方面,即梦平台在短期内连续调价,据说制作一部2分钟AI漫剧的纯素材生成成本,已经从最初的约7元飙升至80元,击穿了许多中小团队的商业模式底线。
“字节在年费之上推出vvip等升级服务,算是变相提价了,就是因为Seedance一家独大”, 有用户向《财经故事荟》吐槽,“现在HappyHorse上线,估计字节要掂量掂量了。”
只要HappyHorse质量稳定,又能做到体验好、定价低,就可以从竞争对手那里挖到到一批有真实内容生成需求的客户了。或许聪明的阿里云销售,已经开始接触火山引擎的客户了。
字节今天放开Seedance2.0的API接入,就是在主动降低用户的使用门槛,有了HappyHorse这个对手,接下来双方大打价格战,也是大概率事件。
字节、快手、阿里三国杀,模型能力你追我赶,算力成本稳中有降,让越来越多的中小创业者可以享受到技术普惠的红利,也能快速引爆市场——这才是我们想看到的AI时代。
