梁文锋有自己的节奏
2 小时前 / 阅读约15分钟
来源:凤凰网
DeepSeek靠低价高性能出圈,引发行业价格战。其融资谨慎,拒绝资本过多干涉,梁文锋个人出资占主导。DeepSeek-V4逆势降价,靠技术创新压缩成本,不着急产品迭代和商业化,追求底层技术极致。

在绿洲资本创始合伙人张津剑的一本书中,曾分享过一个MiniMax创始人闫俊杰与DeepSeek创始人梁文锋第一次见面时的小故事。

彼时,梁文锋穿着一件T恤,没有自我介绍,就问了闫俊杰很多技术问题。

“还以为是助理,我想这助理还挺懂的”闫俊杰说,直到半个小时后闫俊杰询问“梁总什么时候来?”才知道对方就是梁文锋。

穿着简单,没有什么老板的架子,对技术很专注,这是梁文锋给外界留下为数不多的印象,他多数时间出现在周围人的描述中,从媒体的报道中可以总结出一个低调神秘、不喜欢参与公司团建、只对编程感兴趣的形象,与传统意义上“明星公司创始人”的画像不同。

拥有这样一位创始人的DeepSeek,也是AI大模型企业中最与众不同的一个。

图源DeepSeek官网

2024年5月,它靠远低于传统大模型的定价与成本、达到国际顶尖水平的性能、开源技术报告和模型权重,在众星云集的AI大模型赛道中出圈,还引发了行业中的价格战。

它不喜欢开产品发布会、不着急做产品迭代、不跟风加入新兴的赛道、不过分吹捧产品,但不妨碍它依旧位于行业关注的中心。

它不讲商业化故事,身处AI大模型这样一个烧钱做研发的赛道但却并不缺钱,因此,它在过去的很长一段时间中都在拒绝融资,认为资本干预可能会影响技术路线和公司的独立发展。

因此,在近期被传出将进行股权融资的时候,DeepSeek又成了AI圈讨论的焦点。

舆论的发酵甚至赶不上DeepSeek估值增长的速度。自今年4月中旬,被传出将以100亿美元估值释放3%左右股权融资后,DeepSeek的估值已经多次被改写,近期,已经有报道称DeepSeek的估值可能达到500亿美元,三周内翻了5倍。

事情发展至今,故事似乎要向DeepSeek也不得不向巨大的融资额低头的方向行走,但实则不然。DeepSeek对投资者的要求极高,不接受资本对公司有过多干涉,且根据The Information的报道,梁文锋仍在这场融资中占据主导权,其个人出资最高达200亿元人民币,占总募资规模的40%。

很难以行业的共性或者趋势来看待DeepSeek,因为他的掌舵者梁文锋,一直有自己的节奏。

不缺钱的梁文锋,对融资更谨慎

在很多初创企业的叙事里,融资的路径大抵相同:成立-融资-组建团队-发布产品-再融资,最后带着背后的豪华资本朋友圈冲刺上市。

在这个过程中,企业和资本之间通常维持着一种心照不宣的关系:资本向企业提供资金、提出要求;企业出让一部分控制权,但有了继续走下去的底气。

但DeepSeek从成立的第一天起就没按照这个模板行走。外界广泛流传着梁文锋曾给DeepSeek立下的“三不”规矩:不接受外部融资、不稀释股权、不被任何人的商业化时间表绑架。

而这个略显硬核的规矩,在被传出融资消息之前就一直被DeepSeek严格遵守,就算如今第一个“不”已经被打破,不过DeepSeek在寻找资方的过程中,执行着后两个“不”的原则。

近期,市场中流传最多的除了DeepSeek的融资动作、估值变化等,还有一些资本被梁文锋拒之门外的消息。

其中被广泛讨论的是DeepSeek与阿里和腾讯之间的谈判。

这两家互联网大厂正在洽谈投资DeepSeek的消息大约在4月23日前后被大量媒体提及,根据《财经》的报道,当时一位接近交易的人士透露,腾讯与阿里巴巴两家投资方预计共计投资18亿美元,DeepSeek的估值超过了200亿美元。

不过到了5月,两家企业均被曝出在谈判中失利,不是因为钱不到位,而是因为他们都试图从DeepSeek手中拿到更多的话语权,这触碰了梁文锋的底线。

而据白鲸实验室报道,阿里与DeepSeek的投资已经谈崩,核心分歧在于阿里希望在AI战略上构建闭环生态,而DeepSeek坚持技术独立,拒绝了生态绑定的条件。

不过对于这个消息,市场上还出现了另一种声音:根据《每日经济新闻》在5月9日的报道,有市场人士透露,阿里应该没有进行谈判。

另据彭博社报道,有知情人士透露,腾讯提出在本轮融资中认购DeepSeek最多20%的股份。但这一样没有被梁文锋采纳。

此后,外媒The Information报道称,梁文锋将个人出资最高达200亿元人民币,占本轮计划融资总额40%,这个消息更是印证了梁文锋在这轮融资中,决不出让主动权的强硬态度。

报道还透露出腾讯已经更换了投资方式的消息,一位知情人士透露,“腾讯出资60亿,占约2%股权。”

拒绝互联网大厂抛来的橄榄枝,并自掏腰包占据融资主导权,梁文锋的融资逻辑实则一直与钱无关。

DeepSeek不缺钱,其背后是梁文锋创立的量化公司——幻方量化。

据私募排排网数据,2025年,幻方量化的平均收益率高达56.6%,管理规模超700亿元。业内人士估算,仅2025年幻方量化就为梁文锋带来了超过7亿美元的收入,这几乎构成了,DeepSeek独立运转的“弹药库”。

而梁文锋这次选择在融资上“松口”,是因为DeepSeek技术的基本盘——人才,在近期经历了不小的动荡。

2025年底至2026年初,就先后有DeepSeek-V2架构的关键贡献者罗福莉、第一代大语言模型核心作者王炳宣、R1核心作者郭达雅等核心人才离开DeepSeek,转投他厂。

梁文锋最在意的,不会是能否拿到更多融资、能否与互联网大厂建立合作、能否吸引更强大的资本……而是如何在竞对高薪“挖角”的环境下,留住自己的核心技术人员。

因此,他的这次融资,或许是希望通过外部资本给公司作出一个较为公允的估值,让DeepSeek员工手中的期权在定价上更有吸引力。

在DeepSeek最新产品DeepSeek-V4的技术报告里,写着一份长长的作者致谢名单,研究工程团队约270人中,只有10人在研发期间离去。对应下来,技术研发人员离职率不到4%,意味着梁文锋成功留住了97%的员工。

这些人,将继续按照梁文锋的思路,走向与众不同的道路。

从DeepSeek-V4身上,

看梁文锋的“逆势”思维

尽管有关DeepSeek融资的细节铺天盖地,但梁文锋与DeepSeek都没有对此进行过公开回应。反而是在此期间的4月24日,这家公司在没有任何预热的情况下,悄悄上线了行业等待了5个月的新产品——DeepSeek-V4预览版。

按照DeepSeek的介绍,DeepSeek-V4拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。

更引发市场讨论的是这款产品的定价。

在产品发布不到48小时后,DeepSeek发布了API价格调整公告,公告显示,DeepSeek-V4全系API输入缓存命中价格降至首发价的十分之一,V4-Pro叠加限时2.5折,百万Tokens输入缓存命中低至0.025元,创全球大模型价格新低。

这样的定价之所以引发关注,是因为DeepSeek-V4的核心优势——超长上下文极其消耗计算量。据了解,标准的Transformer注意力,每个token都要和前面所有token做一次计算。而上下文从8K扩展到1M,其计算量将是平方级的增长。

而DeepSeek却能在这样的情况下依旧保持低价策略,这并不是一件容易的事。

如果对比同期OpenAI发布的最新产品GPT-5.5,DeepSeek定价的优惠程度则更为直观。

以API价格为例,GPT-5.5的标准报价为输入每百万Token 5美元、输出每百万Token 30美元;DeepSeek-V4-Pro在2.5折促销期内的报价为缓存命中输入每百万Token0.025元、缓存未命中输入每百万Token 3元、输出每百万Token 6元。

图源DeepSeek官网

如果按1美元约合7.2元人民币粗略折算,GPT-5.5的输出价格约为每百万Token 216元,是DeepSeek-V4-Pro促销价的30多倍。

而DeepSeek降价的另一边,在算力成本逐渐提高的情况下,涨价和收费已经成为大模型企业不得不做出的现实选择。

例如GPT-5.5的价格比GPT-5.4整体贵了一倍;智谱AI在4月初公布了今年以来的第三次提价计划,发布新一代旗舰模型GLM-5.1的同时提价10%;Kimi在4月下旬发布K2.6时,将API输入价格从0.60美元/百万Tokens上调至0.95美元/百万Tokens,涨价58%。

一边是行业整体的涨价趋势,另一边则是梁文锋与DeepSeek的逆势降价,场面似乎与两年前惊人地相似,彼时,性价比极高的DeepSeek还意外引发了大模型行业的价格战。

之所以说是“意外”,是因为梁文锋无意引发价格战,他曾在接受36氪的采访时表示,自己对掀起行业价格战一事非常意外,“我们只是按照自己的步调来做事,然后核算成本定价。”

但也与两年前一样,这一次DeepSeek-V4也无意引发价格战,其能逆势降价、把控好成本,是靠技术创新实现的。

其中,DeepSeek-V4成本压缩的核心突破在于压缩注意力机制的改善。

其设计了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)两种压缩注意力机制,前者负责精准定位关键细节,后者负责把握全局脉络。

DeepSeek将两种注意力在前向传播中每一层交替使用,将Prefill阶段的注意力计算复杂度从O(N^2)降低为近似线性的O(N*k),并线性压缩了Prefill和Decode阶段的KV Cache,减少了推理时显存和带宽的压力。

在这些层层削减之后,缓存体积已经被压缩到了90%以上。

除此之外,DeepSeek降低成本的方式还有很多。

例如其靠一套动态稀疏选择机制,将复杂度强制截断为常数级运算。在1M长上下文下,V4 Pro的单token推理FLOPs降到了前代V3.2的27%;其自研的TileLang语言,能让GPU计算与网络传输并行,硬件利用率逼近极限;针对智能体任务,用特殊标记替代额外小模型,直接复用主模型的KV Cache来并行执行一些辅助任务。把推理成本压到极致。

“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”这是梁文锋在DeepSeek-V2引发价格战后对媒体的回应,这也同样适用于DeepSeek-V4。

对于梁文锋来说,其他企业的定价如何,并不能成为他的参考依据,他只专注在自己的技术逻辑上,开出适用于DeepSeek的定价。

梁文锋,并不着急产品迭代和商业化

梁文锋着急产品迭代和商业化吗?

如果经历过从DeepSeek-V3.2,到DeepSeek-V4之间那5个月的漫长等待,这个答案可能呼之欲出。

在DeepSeek沉默的这五个月期间,不管是美国市场的OpenAI、Anthropic、谷歌Gemini,还是中国市场的阿里千问、字节跳动豆包、腾讯混元、小米MiMo等主流模型公司,都至少发布或迭代了多款模型,几乎每2.8天就会有一款模型发布或迭代。

对于AI大模型公司而言,商业化几乎是与产品迭代相伴相生的话题。企业们害怕自己的技术被赶超,害怕失去商业化优势,进而失去自己在资本市场的想象力。

而长期不着急迭代的DeepSeek,在那段时间就已经开始被超越了。DeepSeek-V3.2的性能一度在国际市场调研机构Artificial Analysis的基准测试中,落后于penAI、Anthropic、谷歌Gemini、阿里千问、月之暗面Kimi、智谱GLM、MiniMax等旗舰模型。

更关键的是行业中掀起龙虾热后,Agent需求也随之爆发,Coding能力成为各家企业追逐的方向,而DeepSeek-V3.2,在Agent和Coding能力上也显得相对落后。

但不管其他企业的模型如何迭代、市场对DeepSeek的失望情绪有多高,这些似乎都很难影响到梁文锋与DeepSeek的开发节奏。

梁文锋有自己的坚持,在他为数不多的采访中,“实现AGI”、“不追求短期的商业化”是其反复提及的观点。

将大模型的底层技术做到极致,才是梁文锋的追求。

DeepSeek-V4一经发布,就在很大程度上追平了前代作品在Agent方面的落后趋势。

DeepSeek在发布公告中表示,相比前代模型,DeepSeek-V4-Pro在Agentic Coding评测中,已达到当前开源模型最佳水平,并在其他Agent相关评测中表现优异;在世界知识测评中,大幅领先其他开源模型;在数学、STEM、竞赛型代码的测评中,超越当前所有已公开评测的开源模型,并取得了比肩世界顶级闭源模型的成绩。

DeepSeek-V4此次更新升级的核心能力之一——上下文,是Agent工具理解并记忆大量文本的关键,而DeepSeek此次发布的两个模型都能支持100万token的上下文长度,这将大大提升Agent阅读文本、记住更多细节的能力。

根据差评的测试,将一本红楼梦中随便贴了一段三体的科幻小说内容发送给DeepSeek-V4查找异常,它用几秒钟就找到了。

另一个细节也体现了梁文锋与DeepSeek不强调全球领先、将底层技术做到极致的态度——在产品的发布公告中承认自己与竞对存在的差距。

其表示,目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。

图源DeepSeek官方微信公众号

对于AI行业已经说了很长时间的多模态故事,DeepSeek也是慢慢来的态度。

如今的DeepSeek-V4仍未搭载原生多模态能力,目前只有市场消息透露,其将在今年6月推出的V4模型迭代版本——V4.1会新增图像、音频理解处理能力,但输出形式仍仅限文本生成。

种种迹象都在表明,如果没有将产品的技术水平做到极致,外部市场动态与声音,撼动不了梁文锋的研发节奏和目标。

2024年,梁文锋曾在36氪的采访中表达过这样一个观点,“过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。”

两年过去,梁文锋鲜少再对外发声,但很明显,他不想让商业驱动创新的态度,直到现在都没变。