神秘模型屠榜多日、碾压Seedance 2.0,背后竟是阿里大招:新部门首作实锤,引爆股价拉升
5 小时前 / 阅读约9分钟
来源:36kr
阿里巴巴自研的AI视频生成模型HappyHorse-1.0登顶Artificial Analysis排行榜,支持文本和图像生成视频,并原生生成音频。该模型采用统一架构,具备多项技术亮点,并计划开源。

近日,这样一款名为 HappyHorse-1.0 的神秘模型悄然登顶 Artificial Analysis 视频模型排行榜,排在了 Seedance 2.0、Kling 3.0 以及目前所有其他视频生成模型之上。

现在,它终于被“认领”了。4 月 10 日,阿里巴巴在多个社交平台发文称,HappyHorse 为其 ATH-AI 创新事业部自研产品,正在内测中,即将正式开放,并表示“目前尚未上线,网上流传的那些‘官网’都不是真的”。

Artificial Analysis 稍后也在 X 平台发布信息称,HappyHorse-1.0 由阿里巴巴支持四种视频生成模式:文本转视频和图像到视频,均支持原生音频和不带原生音频,API 访问计划于 4 月 30 日上线。

匿名拿下两个榜首, HappyHorse-1.0 强在哪? 

最初,Artificial Analysis 官方在公布该模型时使用了“假名匿名”一词。它无团队名称、无所属机构,仅凭实力一路连胜。

在 Artificial Analysis 的文本生成视频、图像生成视频(无音频)两项榜单中,HappyHorse 1.0 登顶第一已有多日,而且胜负差距十分悬殊。

Artificial Analysis 视频竞技场堪称当前 AI 视频模型领域最接近可信、独立的权威排名,该平台采用盲测用户投票机制:用户看到由同一提示词生成的两段视频,在不知道对应模型的情况下选出更优的一段,大量投票最终汇总为模型评分。投票结果通过国际象棋同款 Elo 积分系统进行排名,没有实验室精挑细选的演示样本,没有自报的 FID 分数,完全是大规模人类盲选的真实偏好。

有消息称,作为一款 AI 视频生成模型,HappyHorse 1.0 同时支持文本生成视频(T2V)与图像生成视频(I2V)。其独特之处就在于音视频联合生成架构,由一个统一的 Transformer 架构同时完成两项任务。它能在单次推理过程中一次性同步生成视频与音频,而非先出视频、后期再配音。也就是说,当音频与视频在同一前向传播流程中生成时,对话、环境音、拟声音效均可天然同步,无需额外独立处理流程。

当前,绝大多数 AI 视频模型要么完全舍弃音频(如 Kling、Runway),要么在视频生成完成后,通过独立流程单独生成音频(如 Veo 3)。HappyHorse 1.0 则另辟蹊径:文本、图像、视频帧与音频 token 共享同一套 40 层 Transformer 序列。

该模型的主要技术亮点共包括:

统一 40 层自注意力 Transformer 架构(约 150 亿参数)

DMD-2 蒸馏技术:仅需 8 步去噪,速度远快于常规扩散模型

原生音视频联合生成:输出天然同步,无需后期对齐

支持 7 种语言口型同步:英语、普通话、粤语、日语、韩语、德语、法语

内置超分模块,原生输出 1080P 视频

MagiCompiler 推理加速:在单张 H100 显卡下,256P 视频约 2 秒生成,1080P 视频约 耗时 38 秒

阿里新部门首作实锤,引爆股价拉升 

不过,HappyHorse 1.0 的身份谜团并未持续太久。阿里巴巴现已公开确认:“HappyHorse 是阿里 ATH 旗下创新事业部研发的模型,目前正处于内测中,也会于近期开放 API。ATH 创新事业部已启动一个 AI 时代的全新交互方式探索计划,HappyHorse 是这个探索方向的一部分,更多的产品我们会陆续推出。”

3 月 16 日,阿里巴巴成立 Alibaba Token Hub(ATH)事业群,建立以“创造 Token、输送 Token、应用 Token”为核心目标的新组织,几乎整合通义实验室、MaaS 业务线、千问事业部、悟空事业部及 AI 创新事业部五大板块,由阿里巴巴 CEO 吴泳铭直接负责。4 月 8 日,CEO 吴泳铭发布全员信,再宣布 AI 相关组织的重大调整,成立集团技术委员会,原通义实验室升级为通义大模型事业部。

此前有消息称,HappyHorse 出自阿里旗下淘天集团未来生活实验室张迪领导的团队。目前,未来生活实验室已从淘天集团分拆,划归新成立的 ATH 事业群旗下 AI 创新事业部。负责人张迪为前快手副总裁、Kling AI 技术负责人张迪,他于 2025 年底加入阿里,牵头多模态 AI 创新工作。

另有消息显示,负责此次 HappyHorse 视频生成模型的是来自阿里 ATH 的郑波团队。郑波是阿里巴巴副总裁,清华大学计算机系博士,2006 年到 2017 年,领导谷歌的展示广告算法团队以及中国地图团队。他在 2017 年 9 月加入阿里巴巴,曾担任淘宝搜推算法负责人、阿里妈妈 CTO、淘天集团算法技术负责人,主要研究方向为大模型,多模态,决策智能,深度学习,搜索、推荐和广告算法以及引擎优化等领域。

该消息曝光之际,阿里港股股价也出现了明显波动,今日开盘后上涨,午后再度拉升。这一操作套路似乎与今年早些时候的 Pony Alpha 如出一辙:一款神秘模型现身 OpenRouter,引发数周猜测,最终被证实是智谱 Z.ai 的 GLM-5 在正式发布前进行的隐秘压力测试。匿名参赛、用真实效果验证实力,随后公开身份。

而本次的不同之处在于:HappyHorse 1.0 不只是与现有头部模型持平,而是实现了很大程度上的全面超越。

根据排行榜的最新数据,在纯视觉画质上,HappyHorse 1.0 在文本转视频排行榜和图像转视频排行榜均明显领先于 Seedance 2.0,Elo 评分相差最多超过 100 、最少也不低于 50 分。通常 5 分的差距只属于统计误差,当前的分数之差则绝非偶然。

但一旦加入音频维度,局面就略有不同了:在文本转视频排行榜和图像转视频排行榜上,HappyHorse 1.0 虽然均小幅领先,不过差距要小太多了、几乎相差无几。这也说明 HappyHorse 的音频生成能力是具备竞争力的,但并非其最强项。

不过,有一点需要提醒:新模型的 Elo 分数波动通常更大。这些分数后续还会变动,具体走向尚无法确定。HappyHorse 1.0 正式开放后,样本数量还会增多。

AI 视频行业要“变天”了? 

针对 HappyHorse-1.0 与 Seedance 2.0,CTOL 数字解决方案工程团队基于真实客户生产场景进行了独立一对一对比测试,结论客观而犀利:Seedance 2.0 在自然度、物理逻辑、镜头运动处理上依然小幅领先,但在运动控制、提示词遵循度、复杂现实场景的真实细节方面,两者差距明显且不容忽视,而这些差异在评测分数上却完全体现不出来。该团队观察到,HappyHorse 缺少一种生动感,一种 Seedance 在高难度生成中能呈现出的人文温度。

“老实说,我对任何宣称 HappyHorse 已经超越 Seedance 2.0 的说法都持怀疑态度,我目前还无法信服。”CTOL 团队写道。但他们同时指出,Seedance 和谷歌的 Veo 都被严苛的内容保护机制严重束缚,导致它们 “哪怕只存在极小版权风险的内容,都无法使用”,Veo 在这方面问题最为严重。此外,在 Sora 意外推迟上线后,Seedance 与 Veo 仍基本无法广泛使用,且定价高昂。

“当前顶尖视频生成模型最大的问题,在于可用性、定价以及过多的限制。”这是 CTOL 数字解决方案公司工程团队最后得出的结论。“如果 HappyHorse 1.0 能通过开源,在可用性、价格和使用限制上做到更优,那它就会是毫无悬念的赢家。”

有多方消息称,HappyHorse 1.0 将完整开源:基础模型权重、蒸馏模型、超分模块及推理代码一并放出,且许可协议允许商用与微调。一旦其正式开源,AI 视频行业格局或将迅速迎来巨变。对创作者与开发者而言,这意味着,一次下载,即可在自有设备上永久运行;可针对特定风格、角色或视觉美学进行微调;集成至自有产品,无需依赖第三方 API;可查看模型架构,用于安全评估或研究。

不过需要注意的是,即便未来真的开源,该模型的部署门槛或许也不低。当前,阿里官方也并未对此给出确切说明。

参考链接:

https://www.theinformation.com/briefings/alibaba-anonymously-launches-new-ai-video-model

https://www.ctol.digital/news/happyhorse-1-0-alibaba-secret-video-ai-tops-2026-leaderboard-vs-seedance-2-0/