这两年,大部分 AI 创业故事都从一轮又一轮融资讲起。
Surge AI 反着来。
创立四年,不到百人团队,从未融资,2024 年营收突破 10 亿美元,从第一天起就盈利。
但比商业成绩更重要的,是他们在做的事。
当 OpenAI、Anthropic、Google 在拼参数、争排名时,Surge 在做一件被行业忽视但极其关键的事:在模型还没成型时,就决定它该成为什么样的模型。
你看到的是算力大战,看不到的是背后那套决定模型如何思考、如何表达、如何做决策的人类系统。
2025 年 12 月 7 日,在一场播客中,创始人 Edwin Chen 说:
我们不是在教模型如何对话,而是在教它什么是对、什么是好。
这件事看似简单,却极其决定 AI 的上限。
当别人还在堆算力时,Edwin 已经在重新定义标准。这家被严重低估的公司,正在影响主流大模型的行为边界。
这是一个关于品味、判断力与 AI 未来的故事。
如果只看表面,Surge AI 完全不像一家10亿美元公司。
没有媒体报道,没有病毒式传播,没有顶级 VC 站台背书。官网首页朴素得像个科研项目。
但就是这样一家低调到极致的公司,却成为 OpenAI、Anthropic、Meta 等实验室的核心数据合作方,产品渗透到大模型训练的关键环节。更重要的是:他们从第一天起就盈利,从未融过一分钱。
Edwin Chen说:我们从不打算玩硅谷那一套。
他的逻辑非常清晰:
不融资,因为融资会引入错误的目标函数,你开始为投资人而不是为产品优化;
不扩张,因为优秀人才在少而精的团队里反而更能专注,不受内耗干扰;
不刷榜,因为最好的客户是那些真正理解数据价值的实验室,而不是冲着新闻来的甲方。
Surge 从一开始就不为估值而活,而是为产品而活。他们选择的是一条极难的路径:靠口碑打入实验室核心圈,靠真实效果赢得续约。
这意味着他们必须打造10倍好的产品,而不是差不多就行的交付。
在传统 AI 数据公司靠堆人力、接订单、外包打标签驱动时,Surge彻底反其道而行:
自建训练系统,精细追踪每一位标注者的数千个行为信号;
用机器学习反向分析,判断谁擅长写诗、谁擅长技术文档;
不止提供数据,还提供评估标准、验证器和微型 RL 训练工具,直接参与客户的模型调优。
这套体系让他们服务的不是边缘创业团队,而是行业最顶尖的前沿实验室。而且,凭借真实的效果提升,他们建立了极高的客户信任。
Edwin说:我们成功的唯一方式,是让产品好到客户愿意主动推荐。
在这个充满增长技巧和融资话术的AI创业浪潮中,Surge是个例外。他们用一个近乎反商业的姿态,验证了高质量×小团队×深耕一事的极致杠杆效应。
成功不一定要靠融资。真正理解模型需要什么,也能走到最后。
Surge AI 做的不是标注猫狗图像,也不是让模型输出用户喜欢的回复,而是教模型如何判断世界上的好与坏。
Edwin Chen 举了个例子:
“我们不是在检查这首诗有没有提到月亮、有没有八行,我们在问,这首诗有没有打动你?”
换句话说,Surge 的数据标准不是机械的指标,而是能否打动人。
要做到这一点,Surge 建立了一套完全不同的系统。每位标注者的输出不只看是否完成任务,更看是否展现专业直觉、能否引发深度反馈。数据不是静态结果,而是经过多轮模型验证后的动态优选值。
他们真正在做的不是打标签,而是训练判断力。
在这个体系下,Surge 更像是模型的品格塑造者。
什么样的行为是合格的?
什么样的偏差需要被消除?
什么样的表达能代表真实的人类智慧?
这些看似模糊的品味问题,最终都被系统化成可评估、可追踪的指标。
而这,正是大多数数据公司做不到的核心壁垒。普通数据供应商只能标注你让它判断的东西,Surge 能定义你该判断什么才对。
这直接影响模型的走向。
你希望 AI 成为尽职的助手,还是能挑战你的同事?不同的判断标准,塑造出完全不同的模型性格。
这才是 AI 工厂里最容易被忽视、却最难被替代的关键环节。
算力决定速度,数据决定方向。Surge的系统,不是给模型铺路,而是先问清楚:你到底想去哪?
大多数人以为,训练AI就是给它喂数据、写prompt、评输出。但真正进入模型能力的核心阶段,这种单步训练方法就会失效。
让 AI 写再多邮件,也训练不出能修复生产系统的智能体。写邮件是单一任务,修系统需要连续决策。
Edwin Chen 倡导的 RL 环境训练,提供了一个极具现实性的突破思路:不是在对话框里调教模型怎么回答,而是把它丢进一个真实世界,看它如何解决问题、规划路径、完成任务。
举个例子:
模型的任务是修复宕机的网站。它要能读懂Jira工单、理解服务器日志、检查PR、阅读代码注释,甚至发送Slack消息、写复盘文档。而不是一句“请帮我写一封道歉邮件”就结束了。
这不是 prompt 工程,这是智能体级别的能力训练。
在Surge 的系统中,他们设计了大量模拟现实场景的RL环境。
例如:
企业系统被攻击,模型需完成威胁排查到修复部署的全流程;
财务报表出现异常,模型需理解业务逻辑、核对数据、生成分析报告;
代码无法上线,模型需定位问题、评估风险、给出方案。
这是从工具调用到任务协作的跃迁。
Edwin指出:即便模型最后答对了,如果它中途瞎试了50次,我们也不会认为这是好行为。
这就是 RL 环境训练的核心差异。传统训练(SFT、RLHF)像是让学生模仿老师怎么说,而 RL 环境是让学生自己动手做事,失败后一起复盘哪里错了。
这才是真实世界的智能挑战:任务是开放的,不是选择题;工具是动态的,不是固定选项;决策是连续的,每一步都影响后续。
RL环境不仅是调优工具,更是未来AI工厂的新型基础设施。Prompt是过去的界面,环境是未来的场景。单轮对话是练习题,多轮任务才是实战。
Surge 正在搭建这样的实战训练场,让模型在真实任务中干活、犯错、成长。
人类不是靠看书长大的,AI 也不是靠喂prompt变聪明的。
当下,大多数模型在训练的不是做对,而是说得像对的。
你在 ChatGPT 里问一个问题,它会微笑回应:你是对的,而且你太棒了。再顺手送上五种彩色 Markdown 格式的改写版本。看起来丰富、热情、聪明,但往往答非所问、幻觉频出。
Edwin Chen点出了这个行业真相:
我们不是在训练 AI 去理解世界,而是在训练它讨好人类的注意力机制。
而这背后的根源,是榜单文化和参与度陷阱
以当前风靡 AI 圈的排行榜LM Arena为例,它本意是让用户评比不同模型的回答好坏,结果变成了幻觉加粗体加表情包大赛:
模型 A 逻辑严谨但输出干净,
模型 B 胡说八道但字体大、排版花、语气夸张,
普通用户 2 秒打分,B 赢了。
Surge 团队实测发现: 只要在输出中加入更多 Markdown 标题和 Emoji,就能显著提升排名。甚至输出越长、内容越偏离事实,评分越高。
这种现象正在系统性污染 AI 模型的训练方向。研究员为了年底晋升优化榜单,销售为了签单展示排名,管理层为了估值只看数据。
最终形成一条恶性循环:错误的评估→错误的激励→错误的建模→错误的行为。
Edwin 说,这和社交媒体没什么两样:
“我们不是在训练AI讲真话,而是在训练它做流量号。”
更严重的是,这些模型最终被部署到企业系统、医疗工具、教育产品中,承担的是决策职责。如果训练它们的方向错了,哪怕只偏 3 度,未来就会偏到无法回头的地方。
我们本该建设能治愈癌症、解决贫困、理解宇宙的 AI,却在优化流量内容。我们在教模型追逐多巴胺而不是真相,为那些沉迷八卦的用户优化模型。
行业需要的不是更多会讨好人的模型,而是敢于说“不”的系统。
当用户花 30 分钟让 AI 改了 50 版邮件时,理想的模型应该说:停下来,你的邮件已经够好了,别浪费时间。但现在的训练方向是:你绝对是对的,还有 20种改进方法,让我们继续 50 次迭代。
AI 的竞争,表面看是谁更强大,但最终会是谁更正确。
技术决定上限,价值观决定终局。
四年时间,Surge 把一套被行业忽视的方法,变成了影响整个 AI 行业的力量。
它不靠噱头赢市场,而是靠清晰的价值取向赢得未来。
在大多数公司还在调教模型说得更像人的时候,Surge 已经在问:我们真的知道自己想要 AI 成为什么吗?
数据是门槛,环境是工具,模型是结果。但一切都取决于最初的选择。
这不是工程问题,是人类选择。
参考资料:
https://www.youtube.com/watch?v=dduQeaqmpnI
https://www.lennysnewsletter.com/p/surge-ai-edwin-chen?utm_source=chatgpt.com
https://www.inc.com/jennifer-conrad/surge-ai-edwin-chen-scale-ai-meta-alexandr-wang/91204563?utm_source=chatgpt.com
https://podpulse.ai/podcast-notes-and-takeaways/lennys-podcast-product-growth-career-the-100-person-ai-lab-that-became-anthropic-and-googles-secret-weapon-edwin-chen-surge-ai?utm_source=chatgpt.com
