国庆第一天,OpenAI 把“视频圈子”的桌子掀翻了。
这一次不只是模型发布,而是把 Sora 2 连同一款原生社交应用一并端上台面:你在 iPhone 上刷到的每条短视频,都是 AI 生成的;你可以把自己的“分身”授权给朋友,让他们把你“拉进”他们的剧情;你也能一键 Remix 别人的桥段,续写、换角、改风格。它长得像 TikTok,却试图把短视频的生产关系重写成“人与人 + 模型”的协作网络。OpenAI 自己的 Sora 官网也把“Cast yourself”“Remix everything”摆在最显眼的位置,几乎把产品的灵魂锁定在“社交式共创”上。
回看 2024 年 2 月的初代 Sora,业界当时的评价更像“终于能看了”;这一次,OpenAI 试图交付“能演”。他们在内部叙事里把 Sora 2 对标成“视频的 ChatGPT 时刻”——不只是画面质量的跃迁,更是对多镜头叙事、角色一致性与物理逻辑的更稳健把握。即便你给它一个“吊环失误”的提示,它也更倾向于生成“合理的失败”,而不是为了讨好提示而篡改世界规律。这种“失败也合理”的世界建模,恰恰是视频生成里最稀缺、却最接近通用世界模型的一步。
真正的变化在产品:Sora 现在是一条“AI 原生短视频链路”。应用形态上,它提供 10 秒时长的生成位,信息流样式接近 TikTok,支持点赞、评论与 Remix,但内容全部由 AI 生成。身份与合规层,OpenAI 设计了“Cameo”式的授权:只有当事人同意上传的“分身”才可被他人调用,且当事人拥有撤销与管理权,平台禁止公众人物的肖像使用并设置更多安全限制。
更接近“真实世界”的生成
随着 Sora 2 的问世,OpenAI 认为视频生成已直接跨越到了 GPT-3.5 时刻。这一代模型能够实现以往几乎不可能完成的场景:奥运级的体操动作、在桨板上做出严格遵循浮力与刚性物理规律的后空翻,甚至是“三周半跳 + 抱猫”的极限表演。