AI 视频赛道的竞争,已经跨过了比拼谁生成视频更长、更逼真的初级阶段,正在迈向实时交互、模拟真实物理规律的技术分水岭。
在这个重要节点上,一家成立不到三年的中国创业公司率先抢跑,还顺势拿下了赛道内最大的一笔融资。
据悉,国内明星创业公司爱诗科技近日完成 3 亿美元 C 轮融资(约合 20.6 亿元人民币),本轮融资由鼎晖香港基金、鼎晖 VGC、鼎晖百孚领投,产业投资人中国儒意、三七互娱,知名投资机构亦庄国投、众为资本、国泰君安创新投资、苏创投集团、苏州卓璞、华控基金、复星锐正、苏州宜和等参投。
此外,多家全球知名投资机构,包括 UOB Venture Management、OCBC 生态下 Lion X 基金、3W Fund、Antler、EnvisionX Capital、iGlobe Partners 等机构也参与了投资。
AI 视频生成赛道上,爱诗科技本次融资金额仅次于上个月 Runway 在 E 轮的 3.15 亿美元,成为了截至目前领域内最大的融资之一。
进入 2026 年,AI 视频生成技术迭代速度继续加快。春节前,OpenAI 的 Sora 2 迎来了重要模型能力升级,快手可灵 3.0 版普及了「电影级」的叙事能力,字节的 Seedance 2.0 更是快速破圈,引发了人们对于创作革命的大讨论,视频生成领域的前沿技术距离实际落地似乎仅有一步之遥。
而在这波浪潮中,不论从技术实力、商业化还是融资节奏,爱诗科技都保持了领先。
如果说此前的 AI 视频赛道还在经历「百模大战」的试水期,那么爱诗科技昨日官宣的这笔重磅融资,则正式宣告了头部格局的确立。
在当前整体相对谨慎的一级市场环境下,这笔资金刷新了国内 AI 视频赛道最大单笔融资纪录,是资本市场对 AI 视频生成投出的一笔「信任票」。
更难能可贵的是,达成这笔融资的爱诗科技,是在短短三年时间里实现从零到独角兽的跨越的。

自 2023 年 4 月成立以来,爱诗科技保持着极快的融资速度,而且每轮都有顶级机构入场 —— 从 A 轮的蚂蚁、达晨,B 轮的阿里,再到 C 轮的鼎晖。这不仅说明公司一直保持着高速的扩张,也意味着资本愿意持续为其 AI 模型规模的扩大、推理需求的指数级增长买单。
加上此前超 8 亿元的融资积累,本轮融资过后,爱诗科技的累计融资额已接近 30 亿元人民币,毫无争议地跻身「独角兽」阵营,稳居 AI 视频生成第一梯队。
与此同时,在新一轮融资中我们也窥见了产业落地的趋势与方向。在长长的投资人名单中,中国儒意与三七互娱的入局,标志着融资逻辑已经从纯粹的「买 GPU」升级为「产业深度绑定」。
不久之后,AI 的视频创作很可能会快速落地到影视、游戏等产业中,在技术快速迭代的今天,产业资本正在带着真实场景入局,把 AI 大模型推向更远。
3 亿美元的充足弹药,不仅意味着爱诗科技能够更从容地应对大模型训练以及规模化推理带来的庞大算力消耗,也预示着下游的内容产业正加速兑现「AI 降本增效与体验革新」的商业逻辑。
爱诗联合创始人谢旭璋表示,希望能充分利用本次融资继续投入研发、探索新业务、拓展全球市场。此前爱诗科技研发同级别模型的训练成本大概只有同行的 10%,今年希望能加大数倍投入。
从技术角度看,如果将时间轴拉长,AI 视频生成的进化史,是一场算力与架构螺旋递进的革命。
大模型兴起之前,图像生成的主要方法依赖于 GAN(生成对抗网络)与扩散模型(Diffusion)。那时的 AI 视频虽然有惊艳的单帧画质或风格化渲染,但在时间连贯性、物理规律和长视频生成上步履维艰,始终难以摆脱「玩具」的标签。
真正的爆发来源于 DiT(Diffusion Transformer)架构的全面引入。当 OpenAI 抛出 Sora 这枚深水炸弹时,行业意识到:将 Transformer 强大的扩展能力与扩散模型结合,才是通往高保真、长序列视频的正确路径。从那时起,AI 视频赛道迎来了自己的「GPT 时刻」,国内外的「百模大战」随之打响。
进入 2026 年,高度一致性的视频生成内容与实时生成能力正在成为趋势,面向世界模型的探索趋势也逐渐从共识落地成为技术思路。
作为国内最早对标 Sora 的 AI 创业公司之一,正是在这样一条陡峭的技术攀登路线上,爱诗科技走出了独立行情。
在当前的全球 AI 视频生成领域的格局中,爱诗科技的技术实力已稳居「第一梯队」。面对海外的 Runway、Pika 以及国内众多大厂,爱诗科技不仅在底层大模型架构的演进上未曾掉队,更通过率先落地通用实时世界模型,确立了前沿技术探索的领跑位置。
成立不到三年,爱诗科技的自研模型 PixVerse 系列已经进行了多次大版本迭代,其去年 9 月上线的 PixVerse V5 在 Artificial Analysis 等权威图生视频榜单中一度拿下第二。

据介绍,PixVerse V5 在模型结构设计上突出两大亮点:其训练了专用于视频与图像生成的 Tokenizer,在保持较高压缩比的同时,依然能够保证出色的重建质量与生成效果;通过自适应的 Attention 结构,模型在计算量与注意力精度之间实现了动态平衡,不仅能有效降低计算开销,还能在保持推理速度的前提下,提供更大的规模扩展(ScaleUp)空间,并显著提升其拟合能力。
在今年 2 月底的最新榜单上,最新版本的 PixVerse V5.6 在图生视频领域与文本生视频领域上继续名列前两位,是榜单中表现最为突出的中国模型之一。
今年 1 月 13 日,爱诗发布了旗下全新一代模型 PixVerse R1,作为全球首个支持 1080P 分辨率的通用实时世界模型,它的出现标志着 AI 视频技术从传统的「预录制」(异步渲染,等待成片),正式跨入了「实时动态生成」时代。
在底层技术上,PixVerse R1 并没有完全依赖传统的单次渲染路径,而是设计了一个完全端到端的原生多模态基础架构,实现了三方面的核心技术突破。
PixVerse R1 基于原生多模态基础模型 Omni,后者将多种模态(文本、图像、视频、音频)统一为连续的 token 流,能够在单一框架内接受任意多模态输入。Omni 采取了端到端、原生分辨率的训练,内化了现实世界的内在物理规律和动态。
与受限于有限片段的标准扩散方法不同,PixVerse-R1 集成了自回归建模以实现无限、连续的视觉流式传输,并结合记忆增强注意力机制以确保生成的世界在长时间范围内保持物理一致性。
因此,PixVerse-R1 可以不需要像传统工具那样等整个视频的所有帧都计算完毕才输出,而是能像流水一样,边算边播;另一方面,在长时间的生成过程中,视频内容也能保持物理的一致性。
PixVerse R1 的实时 1080p 能力源自于即时响应引擎(IRE)。通过将生成延迟压缩到极低的「瞬时」阈值,用户不再需要在下达指令后被动等待「开盲盒」,而是可以在视频播放时随时输入新指令,画面能立刻做出合理反应,且维持物理规律的合理性。
剥开表层的「视频生成」概念,PixVerse R1 已经把目标指向了「世界模型」(World Model)这个 AI 领域下一步的大方向。近期,Yann LeCun 的 AMI Labs 和李飞飞的 World Labs 分别宣布融资,全球顶尖技术力量正在向世界模型倾斜。在这样的行业背景下,PixVerse R1 采取的原生多模态与自回归流式生成,本质上已不是在「逐帧画图」,而是在尝试「计算」和「模拟」物理世界的运转规律。
通过多模态处理和即时响应的架构创新,PixVerse R1 克服了传统视频工作流程的固有限制,引领了视听媒体创作和体验的进化。除了视频生成任务外,新模型也为从 AI 原生游戏到复杂工业模拟等应用提供了计算基础。
当前,视频生成领域的技术落地竞争逐渐进入白热化,能够用足够强大的技术,跑通社区化与商业化的正循环,是一个稀缺的特质。
与国内外的竞品(如 Sora、快手可灵、字节即梦)相比,爱诗科技提供的产品 PixVerse / 拍我 AI 更加向 C 端用户倾斜,主打一个「速度快、易上手、创意可控」。在这里,没做过视频的普通用户能获得原生的 AI 视频创作和分发体验。
按照爱诗自己的说法,全球看视频的几十亿人里,只有不到 10% 是视频创作者,而剩下 90% 的人也有表达欲。AI 能够帮助他们成为创作者。
这样的愿景下,爱诗的应用针对一些痛点进行了优化:
PixVerse 在生成速度上极具优势,满足了用户「即看即创」的需求。
在视频生成任务最具挑战的一致性环节上,爱诗在业内较早推出了人物一致性模型,能精准约束角色 ID,让视频中的人物在不同镜头和动作下保持长相、服装的高度一致。
在功能性上,其产品支持文生视频、图生视频,以及视频生视频等生成方式,允许用户基于实拍素材或影视片段进行风格化重绘或延长生成。
为了降低人们的使用门槛,爱诗的 App 上拥有智能体驱动的创作助手,普通用户不需要精通复杂的 Prompt(提示词),通过智能体辅助就能一键生成专业级的视频。与此同时,它的社区构建极具全球化视野,其提供的玩法能够精准击中不同地区用户的文化爽点,催生了大量内容的广泛传播。
比如用 PixVerse 做智能体创作圆头耄耋的图片,它不仅生成了高质量的手办尾帧图,还生成了一个炫酷的转场动画。

自 2024 年 11 月正式商业化起,爱诗科技在不到一年时间收入增长超过 10 倍,是全球收入和用户增长最快的 AI 平台之一。
当前,PixVerse 的用户规模超过了一亿,爱诗科技的年度经常性收入(ARR)已超过 4000 万美元,产品 MAU 超过 1600 万。
这在当前的 AI 应用赛道具有至关重要的意义。当众多大模型公司还在为高昂的推理成本倒挂而焦虑时,爱诗科技证明了高粘性原生多模态应用的商业模式是可以成立的。PixVerse 已经不再是一个用完即走的 SaaS 工具,而是一个正在成型的、具有较高护城河的数字内容创作社区。
除了 C 端订阅,爱诗科技也为企业和开发者提供标准化 API 接口,支持从文本、图像、音频到视频的端到端自动化生成,单月 API 调用量达到千万级别。
随着今年初刚刚发布的 PixVerse R1 上线,音画同步、首尾帧控制、续写和重绘等高级功能,让影视、广告、游戏制作领域的专业创作者也开始逐渐依赖于利用爱诗科技的技术进行创作。
不到三年,从零到独角兽,爱诗科技用过硬的技术底座和敏锐的商业嗅觉,在全球 AI 浪潮中为中国创业者打下了一块重要的版图。
对于内容创作者和普通用户而言,那个可以「所想即所现、随时修改、无限延展」的数字沙盒已经徐徐展开,一场宏大的视觉革命正在到来。
