3亿美元巨额融资，AI视频新独角兽爱诗科技，正在抢跑「实时世界模型」 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

3亿美元巨额融资，AI视频新独角兽爱诗科技，正在抢跑「实时世界模型」

2026-03-13 / 阅读约12分钟

来源：36kr

爱诗科技完成3亿美元C轮融资，成为AI视频生成领域最大融资之一。其自研模型PixVerse系列技术领先，已实现多次迭代。PixVerse R1支持1080P实时生成，引领技术进入新阶段。爱诗科技用户规模超一亿，ARR超4000万美元。

AI 视频赛道的竞争，已经跨过了比拼谁生成视频更长、更逼真的初级阶段，正在迈向实时交互、模拟真实物理规律的技术分水岭。

在这个重要节点上，一家成立不到三年的中国创业公司率先抢跑，还顺势拿下了赛道内最大的一笔融资。

据悉，国内明星创业公司爱诗科技近日完成 3 亿美元 C 轮融资（约合 20.6 亿元人民币），本轮融资由鼎晖香港基金、鼎晖 VGC、鼎晖百孚领投，产业投资人中国儒意、三七互娱，知名投资机构亦庄国投、众为资本、国泰君安创新投资、苏创投集团、苏州卓璞、华控基金、复星锐正、苏州宜和等参投。

此外，多家全球知名投资机构，包括 UOB Venture Management、OCBC 生态下 Lion X 基金、3W Fund、Antler、EnvisionX Capital、iGlobe Partners 等机构也参与了投资。

AI 视频生成赛道上，爱诗科技本次融资金额仅次于上个月 Runway 在 E 轮的 3.15 亿美元，成为了截至目前领域内最大的融资之一。

进入 2026 年，AI 视频生成技术迭代速度继续加快。春节前，OpenAI 的 Sora 2 迎来了重要模型能力升级，快手可灵 3.0 版普及了「电影级」的叙事能力，字节的 Seedance 2.0 更是快速破圈，引发了人们对于创作革命的大讨论，视频生成领域的前沿技术距离实际落地似乎仅有一步之遥。

而在这波浪潮中，不论从技术实力、商业化还是融资节奏，爱诗科技都保持了领先。

不到三年，从零到独角兽

如果说此前的 AI 视频赛道还在经历「百模大战」的试水期，那么爱诗科技昨日官宣的这笔重磅融资，则正式宣告了头部格局的确立。

在当前整体相对谨慎的一级市场环境下，这笔资金刷新了国内 AI 视频赛道最大单笔融资纪录，是资本市场对 AI 视频生成投出的一笔「信任票」。

更难能可贵的是，达成这笔融资的爱诗科技，是在短短三年时间里实现从零到独角兽的跨越的。

自 2023 年 4 月成立以来，爱诗科技保持着极快的融资速度，而且每轮都有顶级机构入场 —— 从 A 轮的蚂蚁、达晨，B 轮的阿里，再到 C 轮的鼎晖。这不仅说明公司一直保持着高速的扩张，也意味着资本愿意持续为其 AI 模型规模的扩大、推理需求的指数级增长买单。

加上此前超 8 亿元的融资积累，本轮融资过后，爱诗科技的累计融资额已接近 30 亿元人民币，毫无争议地跻身「独角兽」阵营，稳居 AI 视频生成第一梯队。

与此同时，在新一轮融资中我们也窥见了产业落地的趋势与方向。在长长的投资人名单中，中国儒意与三七互娱的入局，标志着融资逻辑已经从纯粹的「买 GPU」升级为「产业深度绑定」。

不久之后，AI 的视频创作很可能会快速落地到影视、游戏等产业中，在技术快速迭代的今天，产业资本正在带着真实场景入局，把 AI 大模型推向更远。

3 亿美元的充足弹药，不仅意味着爱诗科技能够更从容地应对大模型训练以及规模化推理带来的庞大算力消耗，也预示着下游的内容产业正加速兑现「AI 降本增效与体验革新」的商业逻辑。

爱诗联合创始人谢旭璋表示，希望能充分利用本次融资继续投入研发、探索新业务、拓展全球市场。此前爱诗科技研发同级别模型的训练成本大概只有同行的 10%，今年希望能加大数倍投入。

从对标 Sora到抢跑「实时世界模型」

从技术角度看，如果将时间轴拉长，AI 视频生成的进化史，是一场算力与架构螺旋递进的革命。

大模型兴起之前，图像生成的主要方法依赖于 GAN（生成对抗网络）与扩散模型（Diffusion）。那时的 AI 视频虽然有惊艳的单帧画质或风格化渲染，但在时间连贯性、物理规律和长视频生成上步履维艰，始终难以摆脱「玩具」的标签。

真正的爆发来源于 DiT（Diffusion Transformer）架构的全面引入。当 OpenAI 抛出 Sora 这枚深水炸弹时，行业意识到：将 Transformer 强大的扩展能力与扩散模型结合，才是通往高保真、长序列视频的正确路径。从那时起，AI 视频赛道迎来了自己的「GPT 时刻」，国内外的「百模大战」随之打响。

进入 2026 年，高度一致性的视频生成内容与实时生成能力正在成为趋势，面向世界模型的探索趋势也逐渐从共识落地成为技术思路。

作为国内最早对标 Sora 的 AI 创业公司之一，正是在这样一条陡峭的技术攀登路线上，爱诗科技走出了独立行情。

在当前的全球 AI 视频生成领域的格局中，爱诗科技的技术实力已稳居「第一梯队」。面对海外的 Runway、Pika 以及国内众多大厂，爱诗科技不仅在底层大模型架构的演进上未曾掉队，更通过率先落地通用实时世界模型，确立了前沿技术探索的领跑位置。

成立不到三年，爱诗科技的自研模型 PixVerse 系列已经进行了多次大版本迭代，其去年 9 月上线的 PixVerse V5 在 Artificial Analysis 等权威图生视频榜单中一度拿下第二。

据介绍，PixVerse V5 在模型结构设计上突出两大亮点：其训练了专用于视频与图像生成的 Tokenizer，在保持较高压缩比的同时，依然能够保证出色的重建质量与生成效果；通过自适应的 Attention 结构，模型在计算量与注意力精度之间实现了动态平衡，不仅能有效降低计算开销，还能在保持推理速度的前提下，提供更大的规模扩展（ScaleUp）空间，并显著提升其拟合能力。

在今年 2 月底的最新榜单上，最新版本的 PixVerse V5.6 在图生视频领域与文本生视频领域上继续名列前两位，是榜单中表现最为突出的中国模型之一。

今年 1 月 13 日，爱诗发布了旗下全新一代模型 PixVerse R1，作为全球首个支持 1080P 分辨率的通用实时世界模型，它的出现标志着 AI 视频技术从传统的「预录制」（异步渲染，等待成片），正式跨入了「实时动态生成」时代。

在底层技术上，PixVerse R1 并没有完全依赖传统的单次渲染路径，而是设计了一个完全端到端的原生多模态基础架构，实现了三方面的核心技术突破。

PixVerse R1 基于原生多模态基础模型 Omni，后者将多种模态（文本、图像、视频、音频）统一为连续的 token 流，能够在单一框架内接受任意多模态输入。Omni 采取了端到端、原生分辨率的训练，内化了现实世界的内在物理规律和动态。

与受限于有限片段的标准扩散方法不同，PixVerse-R1 集成了自回归建模以实现无限、连续的视觉流式传输，并结合记忆增强注意力机制以确保生成的世界在长时间范围内保持物理一致性。

因此，PixVerse-R1 可以不需要像传统工具那样等整个视频的所有帧都计算完毕才输出，而是能像流水一样，边算边播；另一方面，在长时间的生成过程中，视频内容也能保持物理的一致性。

PixVerse R1 的实时 1080p 能力源自于即时响应引擎（IRE）。通过将生成延迟压缩到极低的「瞬时」阈值，用户不再需要在下达指令后被动等待「开盲盒」，而是可以在视频播放时随时输入新指令，画面能立刻做出合理反应，且维持物理规律的合理性。

剥开表层的「视频生成」概念，PixVerse R1 已经把目标指向了「世界模型」（World Model）这个 AI 领域下一步的大方向。近期，Yann LeCun 的 AMI Labs 和李飞飞的 World Labs 分别宣布融资，全球顶尖技术力量正在向世界模型倾斜。在这样的行业背景下，PixVerse R1 采取的原生多模态与自回归流式生成，本质上已不是在「逐帧画图」，而是在尝试「计算」和「模拟」物理世界的运转规律。

通过多模态处理和即时响应的架构创新，PixVerse R1 克服了传统视频工作流程的固有限制，引领了视听媒体创作和体验的进化。除了视频生成任务外，新模型也为从 AI 原生游戏到复杂工业模拟等应用提供了计算基础。