“在月之暗面(以下简称‘月暗 ’ ),天才也是分三六九等的。”月暗前员工宋凯对《中国企业家》说。用公司的说法是,“Kimi无闲人”。
宋凯将月暗的文化概括为“和谐的暴躁”,技术大佬之间沟通直率,也充满压力。他们“坦白、激烈、高效”,会当面批评同事,也会把建议无情毙掉。交锋中,“你这个傻X”照样会从天才的嘴里冒出来。十几分钟后,一切又能像没发生过。
但他认为在月暗“别人‘喷’你,都是有理由的 ” 。令人厌恶的“摘桃子”现象不可能出现。这里人效比极高,“大厂里三五十人团队干的事,在Kimi可能就两个人做”。
虽然大模型公司往往天才“扎堆”,但月暗仍有独树一帜的气质。“(他们 ) 文化更统一、人员更精简、追求更纯粹。”一位接近月暗的投资人对《中国企业家》说。
2024年底,杨植麟曾因Kimi的激进投流以及与投资人朱啸虎的官司,被推到风口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打乱了发布节奏。
上半年,月暗一度淡出公众视野,Kimi的C端月活也不断下滑。据QuestMobile数据,截至2025年9月,豆包MAU突破1.72亿,DeepSeek为1.45亿,Kimi的MAU仅为967万。
但到7月,Kimi-K2模型 的 推出,让人们重新见到了杨植麟的技术底牌。K2在编码、Agent、数学推理任务均表现惊艳,更在各类基准性能测试上拿下SOTA成绩。
9月开始直到11月,Kimi又相继发布Agent模式“OK Computer”;混合线性注意力架构Kimi Linear;月暗的首个推理模型K2 Thinking——这些产品因各自的技术原创性,获得了业内好评。
美国知名企业家、硅谷投资人查马斯表示,已将大量工作从Grok迁到Kimi K2。美国《自然》杂志用“又一个DeepSeek时刻”来形容K2的表现。
月暗绝地反攻如何完成?上半年,“大模型六小虎”的核心团队发生不同程度的动荡,但月暗的联创与技术梯队整体稳定。
虽然叫停投流,选择在“模型即产品”上孤注一掷,让月暗增加了商业化未知数;但在投资人眼中,杨植麟对AGI的偏执,仍让其成为被追逐的标的。
近日媒体获悉,月之暗面正在进行新一轮融资,规模大约在6亿美元,投前估值约38亿美元。前述投资人对《中国企业家》证实了月暗新融资“即将关闭”的说法。“他们去年从阿里拿到了很多现金,但在算力、人才消耗上,每年的花费还在10亿~20亿元级别。”
“全球现在可以提供底座能力的厂商越来越少,大家都在收敛,技术寡头会更有机会赢得超额利润的未来。团队有技术理想主义,对冲击AGI更加坚定。虽然他们有过商业化的波折,仍然是很稀缺的资产。”
回头看,DeepSeek-R1的上线,既给月暗带去了压力,也是其重新聚焦技术长板的分水岭——R1上线前,Kimi还沉浸在投流大法中。
据《中国企业家》了解,Kimi的投流由张予彤主导,员工将她形容为精力极其旺盛,好像“永动机”。2024年10月、11月,Kimi的月均广告投放金额超过2亿元。彼时抖音已开始全力扶植豆包,向Kimi封锁渠道。Kimi只好猛攻B站,把CPA(用户转化人均成本)报价从年初的30元拉到了50元。

“那时互联网流量越来越贵,Kimi有趁着品牌红利期,占领先发优势的考虑。”前述投资人对月暗去年的商业化冲刺表示理解。
但DeepSeek-R1未用任何营销,便成为国民应用的表现,让杨植麟警醒。2025年2月中旬,他亲自叫停投放,将目光聚焦于基础算法和模型能力的升级与突破。本来Kimi-K2计划在2025年上半年发布,路线也跟DeepSeek的强化学习一致,但被R1意外“截胡”后,杨植麟将模型优化目标更多对准了Agentic能力。
经过近半年攻坚,月暗用连续发布一系列模型和突破技术,重回大模型牌桌。
2025年7月11日,月暗发布Kimi-K2“超大架构”模型,参数高达1T。目前,全球有实力研发1T参数的大模型公司屈指可数:除了海外的OpenAI、谷歌,仅有阿里的Qwen3-Max、蚂蚁集团发布的百灵大模型Ling-1T,达到了万亿参数。
9月底,月暗灰度测试Kimi的Agent模式“OK Computer”。
10月31日,月暗开源混合线性注意力架构Kimi Linear。依靠在混合线性注意力上的重要突破,该架构对算力成本实现了极大程度的降低,并能在短上下文、长上下文、强化学习扩展机制等场景中,超越同梯队全注意力机制模型的表现。简而言之,能让用户“花小钱,办大事”。
曾在混合线性注意力这条路上试水的公司不止月暗。MiniMax的M1模型、通义千问都曾在这条路线上摸索。参与月暗技术论文创作的MIT在读博士杨松琳在采访中表示:MiniMax的M2模型或由于对“多跳推理”的测试不足,又退回了全注意力机制。
而月暗完成了突破,核心在于对线性注意力模块Kimi Delta Attention(KDA)的设计,在每3层KDA中,插入1层全注意力层;并通过更细粒度的门控机制,更有效地利用了有限状态下的RNN(循环神经网络)内存。从而确保性能不掉点的情况下,最大程度节省算力。
相比月暗,DeepSeek采用的是“稀疏注意力机制”。近期,DeepSeek也为行业提供了一种新思路——OCR路线研究(纯像素输入模型),把文字渲染成图片,用视觉模态当压缩媒介。
有趣的是,月暗的研究员对DeepSeek的设计不以为然。
“我个人觉得有点太刻意了。我更倾向继续在特征空间(Feature Space)里下功夫,去找到更通用,并且与具体模态无关(Modality-agnostic)的方法,来提升模型效率。”11月11日,月之暗面联合创始人吴育昕在社交媒体平台Reddit的有问必答(AMA)活动上,如此评价DeepSeek。
11月6日,月暗又发布了K2系列的首个推理模型Thinking。相比于海外OpenAI动辄数千万美元的投入,该模型训练成本据传仅为460万美元。
在技术层面,Kimi K2 Thinking最引人注目的是在后训练阶段加入了“量化感知”,对MoE组件应用进行INT4权重量化,而非大多数产品使用的FP4精度。
这一技术创新除了提升生成速度之外,对推理硬件的兼容性更强,对英伟达低端GPU和国产加速计算芯片,也更加友好。
虽然对460万美元这个数字,杨植麟和两位联合创始人都下场辟谣:训练成本很难量化,其中很大一部分用于研究和实验。但INT4的创新带来的成本优化,是显而易见的。月暗表示:该模型是在有限数量的H800 GPU上训练而来,他们“把每一张卡都利用到了极致”。
“最近日本客户对月暗的产品关注和美誉度很高。他们的技术一直维持在高水平,且持续发布,价格又足够便宜,已经形成了很好的品牌调性。”前述投资人说。
蛰伏半年,月暗为何可以冲出重围?这由模型行业的人才特性决定。“这是个高精尖科技领域,堆人是没有用的。没有一个天才带队,来多少高级人才都没用。”
今年6月,Meta在硅谷开出了“1亿美元”年薪,疯狂挖角OpenAI的员工。但短短几个月,被挖走的人又纷纷离开Meta,让挖角变成了一场闹剧。
“Meta超级智能实验室号称有3000人,但多数都是做辅助工作。核心团队就44个人,真正能主导技术路线的,应该只有几个人。”一位大模型投资人对《中国企业家》谈道。
与互联网、电商等不同,人工智能的高级人才不会单纯被“钞能力”打动。越顶尖的专家,越需要愿景和志同道合的团队。这也让科技领袖的学术号召力、师门传承,在模型公司的人才招揽中变得格外重要。
对月暗来说,最宝贵的资产便是杨植麟本人。他毕业于清华大学计算机系,获得卡内基梅隆大学计算机博士学位,师从苹果公司现任AI负责人Ruslan Salakhutdinov。
在清华大学求学期间,杨植麟便是一位学术风云人物,拿遍了国内外各类奖项。他后来也曾在清华任职讲师,“杨(植麟)老师的《自然语言处理(NLP)》课在学生中很有名。”一位清华姚班的毕业生告诉《中国企业家》。
学术成绩之外,杨植麟对AGI的追求,也被视为“追求技术理想”的代表。“他非常有号召力,如果觉得清华某个实验室的研究课题好,会把实验室‘连锅端’到月暗。”宋凯说。
天才的聚集,让月暗保持着简洁、高效的组织文化。“大家开会前先把文档对齐,每人只说几句话,大家就散了。”当然,简洁也因为大模型创业容不得“摸鱼”。“除了算法之外,底层基座、前后期数据的每一个环节,如果谁掉了链子,会很明确地感觉出来,一个人就可以拉崩整条供应链。”
“有些模型创业公司除了技术文化,已经开始有商业化、增长,乃至官僚的几种文化混杂,但月暗的文化还是比较纯粹。”前述投资人说。这也让月暗对于员工和技术“大神”,有相当的容忍度。
例如,Kimi的关键人物之一苏剑林,在内部被称为“苏神”。他提出的RoPE(旋转位置编码),以简洁的数学形式解决了Transformer在处理长序列时的位置信息问题,既保持了计算效率,又实现了更好的外推能力,如今已是绝大多数大语言模型的标配技术之一。因此,“苏神”也是月暗里唯一可以居家办公的员工。
考虑到研发人员多为“i人”,月暗还专门设计了一个点菜机器人。员工们将周围的外卖分类到“难吃”“一般”“可以吃”“好吃”等,由机器人帮员工决定中午吃什么。
月暗文化的特别之处还在于,杨植麟并不是个“书呆子”。他在清华读书期间,便和联合创始人、算法负责人周昕宇一起组过摇滚乐队。如今月暗的会议室,也以各种知名乐队命名。创始人的趣味投射到产品中,也让Kimi与市场的效率产品相比,更具极客和文艺的风味。
科技博主“海拉鲁编程客”认为,K2的产品页面设计极简,“国内大模型厂商开始在页面添加推荐产品,但K2仍然克制。”
对于竞争对手,月暗有其独立的价值观判断。海拉鲁谈到月之暗面的相关职位描述,面试问题之一是:“请说出Claude Code为什么不如OpenAI的Codex。”当多数技术人员更推崇Claude Code的极致效应时,月暗的观点与海拉鲁的判断一样:“在编程能力上,Claude是一个很懂技术的产品经理,但Codex是一个真正的软件工程师。”
有用户表示,K2在输出答案时“绝不谄媚”的特点让他们觉得有趣。“问K2 Thinking我帅还是吴彦祖帅?”K2 Thinking会有理有据地,将“为何吴彦祖帅”的推理过程展示出来。
这种不拍马屁的人格,是月暗团队刻意设计。为此,团队在预训练阶段编码了先验知识(Priors),又在后训练(Post-training)阶段为其增添了独特的“风味”(Flavor)。
为了确保K2的智能“上限”,月暗在大模型追求效率之时,也反其道行之。许多用户反映:K2-Thinking思考很慢,有时比同类产品甚至要慢5~10倍。
月暗对此解释:目前版本优先确保性能和准确性,在推理阶段更细致、更耗时。“我们故意保留了更长的思考路径,牺牲了些速度,是为了让模型能真正完成复杂推理。”虽然未来,团队有可能会优化“令牌效率”(token-efficiency),让 Kimi “想得少一点,答得快一点”。
“往山顶,我们又走了一段距离。”K2发布后,杨植麟对着媒体回顾了他这一年的感受时总结道。
2024年曾与月暗齐头并进的“大模型六小虎”,MiniMax和阶跃星辰抓紧多模态;智谱扎根本土,走to B/to G的路线;百川智能和零一万物减少了基础模型迭代,专注于场景落地。越来越多公司放弃了对基座模型的追求,行业不需要那么多“基座”也成为共识。

对手在减少、赛道在集中,竞争却没有变得更容易。攀登技术高峰的同时,更残酷的商业化命题摆在眼前。如何活下去,杨植麟也在寻找答案。2024年月暗投流掀起轩然大波,也证明杨植麟并非不问世事的天真极客。
2024年6月,月暗决定:要用巨量投入,快速获得市场,占领用户心智。据《中国企业家》了解,彼时月暗覆盖了大量渠道,“渠道商的数据也五花八门”。
在疯狂砸钱、冲刺数据的背景下,月暗在2024年9月前后,使用量明显领先对手。同时,公司内部也爆发出了大规模的渠道商欺诈事件。很多人给月暗送“假料”,让杨植麟蒙受了巨额损失。
到2024年12月,月暗一度准备启动面向专业用户的会员结合API调用的商业化计划,与更优质的机构和个人合作。但彼时,朱啸虎对月暗发起诉讼,将计划打断。
今年2月,DeepSeek-R1上线后,让月暗痛下决心,砍掉了“几乎70%的投流”。杨植麟也从腾讯挖来了付强任技术副总裁,负责增长开发,“教团队如何用系统、体系化方法做增长”。
只保留最基础的营销后,月暗更聚焦在极客群体中的影响力。据悉,K2模型发布时,月暗未如过去一般高频直播,而是选择更多在社区运营,让技术研发团队在即刻、知乎、小红书上分享观点。
不过这些并不意味着,月暗破解了商业化难题。一方面,Kimi模型庞大,固然架构创新、技术优化可以降低部署成本,但客户的存储、传输成本仍然不低。另一方面,放弃投流后,Kimi的C端量级还在与大厂拉开距离。
2025年9月,Kimi开启了会员付费订阅,将Kimi-reseahcher、OK Computer等能力打包分层,设置了49 元/月、99 元/月、199元/月三档付费模式。但外界认为,Kimi按照请求次数来计费的方法显得“性价比不高”。对此,月暗回应:这符合他们的后端成本结构,也表示将考虑改进(比如按提问或按字数计费)。
与大厂缠斗,毕竟是一场非对称战争,“这是创业公司很难完成的事。”投资人士告诉《中国企业家》。智谱AI近半年完成了多轮融资,估值已达到400亿元。MiniMax不久前也刚完成一笔3亿美元融资,估值达到300亿元。月暗融资后,是否将发起IPO计划,杨植麟还有一些时间思考。
当下,他的做法是,先用技术突破获得资本市场认可,同时继续向AGI行进。
目前,月暗已经在思考用“模型训模型”的可行性。8月,杨植麟在采访中谈到,希望K2能参与到K3的开发。而K3是否会突破语言大模型进入多模态?月暗给出的答案是:公司已在研究K2的VL(视觉-语言)版本。
