IT之家 10 月 1 日消息,北京时间今天凌晨,OpenAI 发布了下一代视频生成模型 Sora 2。
这款新模型在拟真视频效果上有明显提升,并新增音频生成能力。其继承并扩展了早期的图像生成技术,在同期推出的新版 App 中,用户可以通过一次性录制自己的视频和语音来完成身份验证,然后在生成的视频中“客串”自己或他人。
Sora 应用与现有社交媒体相似,提供算法推荐的信息流,根据互动对象和兴趣推送个性化内容,并引入“可调节排序”功能,让用户进一步定制看到的内容。
Sora 2 延续了 2024 年 2 月发布的初代模型。相比初代在篮球反弹等动作上常常显得僵硬,新版本在物理规律表现上更自然。
与上一代不同,Sora 2 还能生成语音。OpenAI 表示,虽然模型远未完善,仍有不少错误,但这验证了通过更大规模的视频训练,可以逐步接近真实世界的模拟。
Sora 应用目前已在 iOS 上架,但采用邀请制,用户需通过应用申请资格。OpenAI 表示将率先在美国和加拿大逐步开放,并在初期给予用户较宽松的创作额度。但由于视频生成对算力要求极高,公司会限制使用,以保证服务稳定。
OpenAI 坦言,目前唯一的商业计划是在算力不足时,为有需求的用户提供付费生成额外视频的选项。
为回应安全担忧,OpenAI 同步发布了一份博客说明。据IT之家了解,公司强调,所有 Sora 视频都会带有水印和元数据标识,用户的肖像只能在本人同意下使用,并可随时撤销。青少年用户账号会受到家长控制和使用时长限制。
系统的防护措施会在生成阶段就尝试屏蔽不安全内容,包括色情、恐怖主义宣传和自残相关内容,并通过多帧画面和音频检测进行拦截。OpenAI 还计划扩充人工审核团队,重点审查可能涉及霸凌的视频。
OpenAI 将 Sora 2 描述为通往更强大 AI 系统的重要一步。公司表示:“视频模型正在飞速进化。通用世界模拟器和机器人智能体将重塑社会,加速人类的发展进程。”
相关阅读:
《OpenAI 推出全新视频社交应用 Sora:可以“深度伪造”他人,只要对方同意》