- Anthropic和OpenAI正在利用模拟企业应用,以将AI模型训练为“虚拟白领”员工。
- Anthropic计划在未来1年内投入10亿美元,用于构建AI训练所需的“健身房”。
- OpenAI高管预测,未来“整个经济体”都将成为巨大的“强化学习机器”。
9月17日消息,AI领域的两大巨头Anthropic和OpenAI正致力于开发能够替代人类执行复杂工作的“AI同事”。其核心方法是使用模拟企业软件来训练AI模型,使其能像人类员工那样理解和操作真实的工作流程。
为加速这一进程,Anthropic计划在明年投入10亿美元建设大规模的AI训练“健身房”。OpenAI则认为,整个经济未来都可能变成巨大的“强化学习机器”,AI将通过与人类协作和反馈不断进化,从根本上重塑生产力与工作模式。
Anthropic与OpenAI正在做一件前所未有的事:让大语言模型真正走进“办公室”,学习当一名合格的“数字员工”。
这些AI模型正在接受高强度职业培训,学习操作各类专业办公软件,从Salesforce的客户管理系统、Zendesk的客服平台,到医疗领域的Cerner电子病历系统。最终目标是让AI能够独立处理白领日常面临的复杂工作任务。
与传统AI训练完全不同,Anthropic和OpenAI这次采用的是“模拟办公”沉浸式教学。研究人员不仅为AI搭建高度仿真的企业应用环境,还重金聘请各行业专家担任“职业导师”,手把手教授模型软件操作技巧。
这样的训练成本不菲。据知情人士透露,Anthropic计划在未来一年内投入10亿美元,专门建设被称为“强化学习环境”或“健身房”的模拟办公平台。OpenAI同样不惜重金,预计今年在数据相关领域的支出就将达到10亿美元,到2030年更将增至80亿美元。这些资金既用于搭建虚拟办公环境,也用于支付专家薪酬。
不出预料,聘请人类专家的成本也在水涨船高。为OpenAI等公司提供专家服务的Labelbox公司透露,目前教授AI操作软件的生物、软件编程、医学等不同领域专家中,20%时薪超过90美元,近10%时薪突破120美元。预计未来18个月,顶级专家的时薪将涨至150-250美元。
尽管投入巨大,但回报可能超乎想象。一旦成功,这种新训练方式不仅能帮助OpenAI和Anthropic突破传统训练技术的瓶颈,还可能为他们开辟全新的商业模式。例如,未来企业可以销售能接管用户电脑并代为操作应用的“AI智能体”,或者利用AI开发出更强大的企业级应用。
Anthropic首席执行官达里奥·阿莫代伊(Dario Amodei)将这些AI产品称为“虚拟协作者”。它们被设计成能与人类并肩工作,熟练操作我们日常使用的各种应用程序。
然而,要实现这个目标并不简单。
专门帮助企业优化AI模型的图灵公司(Turing)给出了具体案例。该公司前沿数据项目负责人安舒尔·巴吉(Anshul Bhagi)解释道,要教会AI完成一个销售任务,需要跨越多个系统:不仅要掌握Salesforce的客户筛选功能,还要会使用LinkedIn寻找潜在客户、用Calendly安排会议,并通过Gmail发送跟进邮件。
图:研究人员会将复杂任务拆分为多个步骤,然后验证AI模型是否按要求完成
为确保AI真正掌握这些技能,图灵公司设计了一套精细的验证流程:将每个任务拆解为多个关键步骤,并设立明确的检查标准。以销售任务为例,考核标准包括:AI是否按“最后联系时间”筛选了客户数据库?是否成功发送包含Calendly会议链接的邮件?是否将潜在客户状态更新为“重新接洽”?
虽然这项技术尚处于早期阶段,但各大AI实验室已经准备好投入重金。一位投资者透露,Anthropic目前仅将不到10%的后训练(即模型初步训练完成后进入优化阶段)预算用于“强化学习环境”,但由于初期效果显著,该公司预计明年将大幅提高这方面的投入。
图灵公司CEO乔纳森·西达尔特(Jonathan Siddharth)近日透露,他们已建成超过1000个强化学习模拟环境,覆盖从Airbnb到Excel等各类应用场景。这些被称作“AI健身房”的虚拟空间,正成为训练AI模型的重要资产。每个模拟环境都配备100到500个定制任务示例,并包含完整的评估体系,让企业能够系统性地训练AI掌握各类办公技能。
这个新兴领域正吸引大量玩家入场。Scale、Surge、Mercor和Invisible Technologies等竞争对手纷纷推出类似服务,他们不仅提供模拟环境,还配备行业专家设计各种应用场景下的训练任务。一批专注服务顶级AI实验室的初创公司也悄然涌现,强化学习环境正在成为一个新兴细分赛道。
Surge公司创始人兼CEO埃德温·陈(Edwin Chen)说:“OpenAI和Anthropic改进模型的方法,其实是在模仿人类的学习过程,而强化学习环境就像是让AI生活在真实世界里。”
除了搭建模拟环境,AI开发商们也在持续用精心筛选的问答来训练模型,这些问答往往难度极高,比如顶级的编程竞赛题或博士水平的生物学问题。这些问答随后会被用于强化学习,从而教会模型在特定领域的新技能或新知识。
图:改进人工智能模型的方法,可以比作人类学习新概念的不同途径
随着AI模型变得越来越聪明,数据标注公司也开始“招兵买马”,从最初聘请硕博在读生,升级到聘请在特定领域拥有多年经验的职场精英。例如,图灵公司就曾聘请过美国宇航局(NASA)的数据科学家、参与能源部项目的化学家、放射科的住院医师,甚至还有私募股权公司的副总裁,来完成特定的真实世界任务,让AI在一旁“观摩”学习。
巴吉举了一个例子:假设一个AI开发者想教会模型理解税率变动对财务模型的影响,图灵公司会先请一位金融专家(合同工)解决这个问题,得出一个明确的答案,比如最终股价,作为检验标准。
然后,AI开发者会让模型也去尝试完成这个任务几十次。他们会筛选出那些模型计算结果与人类专家一致的案例,再用这些正确的案例来集中训练模型。通过这种方式,模型开发者能快速、低成本地生成大量正确的训练样本。
像OpenAI这样的头部AI开发商,正试图从各行各业收集类似的案例,从医疗到法律,无所不包。一位OpenAI的高管在今年早些时候曾私下表示,他们期望“整个经济体”最终能变成一台巨大的“强化学习机器”。这意味着,AI未来可能会通过记录各领域专业人士在设备上的日常工作来进行学习和训练。