梁文锋有自己的节奏 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

梁文锋有自己的节奏

2026-05-12 / 阅读约15分钟

来源：凤凰网

DeepSeek靠低价高性能出圈，引发行业价格战。其融资谨慎，拒绝资本过多干涉，梁文锋个人出资占主导。DeepSeek-V4逆势降价，靠技术创新压缩成本，不着急产品迭代和商业化，追求底层技术极致。

在绿洲资本创始合伙人张津剑的一本书中，曾分享过一个MiniMax创始人闫俊杰与DeepSeek创始人梁文锋第一次见面时的小故事。

彼时，梁文锋穿着一件T恤，没有自我介绍，就问了闫俊杰很多技术问题。

“还以为是助理，我想这助理还挺懂的”闫俊杰说，直到半个小时后闫俊杰询问“梁总什么时候来？”才知道对方就是梁文锋。

穿着简单，没有什么老板的架子，对技术很专注，这是梁文锋给外界留下为数不多的印象，他多数时间出现在周围人的描述中，从媒体的报道中可以总结出一个低调神秘、不喜欢参与公司团建、只对编程感兴趣的形象，与传统意义上“明星公司创始人”的画像不同。

拥有这样一位创始人的DeepSeek，也是AI大模型企业中最与众不同的一个。

图源DeepSeek官网

2024年5月，它靠远低于传统大模型的定价与成本、达到国际顶尖水平的性能、开源技术报告和模型权重，在众星云集的AI大模型赛道中出圈，还引发了行业中的价格战。

它不喜欢开产品发布会、不着急做产品迭代、不跟风加入新兴的赛道、不过分吹捧产品，但不妨碍它依旧位于行业关注的中心。

它不讲商业化故事，身处AI大模型这样一个烧钱做研发的赛道但却并不缺钱，因此，它在过去的很长一段时间中都在拒绝融资，认为资本干预可能会影响技术路线和公司的独立发展。

因此，在近期被传出将进行股权融资的时候，DeepSeek又成了AI圈讨论的焦点。

舆论的发酵甚至赶不上DeepSeek估值增长的速度。自今年4月中旬，被传出将以100亿美元估值释放3%左右股权融资后，DeepSeek的估值已经多次被改写，近期，已经有报道称DeepSeek的估值可能达到500亿美元，三周内翻了5倍。

事情发展至今，故事似乎要向DeepSeek也不得不向巨大的融资额低头的方向行走，但实则不然。DeepSeek对投资者的要求极高，不接受资本对公司有过多干涉，且根据The Information的报道，梁文锋仍在这场融资中占据主导权，其个人出资最高达200亿元人民币，占总募资规模的40%。

很难以行业的共性或者趋势来看待DeepSeek，因为他的掌舵者梁文锋，一直有自己的节奏。

不缺钱的梁文锋，对融资更谨慎

在很多初创企业的叙事里，融资的路径大抵相同：成立-融资-组建团队-发布产品-再融资，最后带着背后的豪华资本朋友圈冲刺上市。

在这个过程中，企业和资本之间通常维持着一种心照不宣的关系：资本向企业提供资金、提出要求；企业出让一部分控制权，但有了继续走下去的底气。

但DeepSeek从成立的第一天起就没按照这个模板行走。外界广泛流传着梁文锋曾给DeepSeek立下的“三不”规矩：不接受外部融资、不稀释股权、不被任何人的商业化时间表绑架。

而这个略显硬核的规矩，在被传出融资消息之前就一直被DeepSeek严格遵守，就算如今第一个“不”已经被打破，不过DeepSeek在寻找资方的过程中，执行着后两个“不”的原则。

近期，市场中流传最多的除了DeepSeek的融资动作、估值变化等，还有一些资本被梁文锋拒之门外的消息。

其中被广泛讨论的是DeepSeek与阿里和腾讯之间的谈判。

这两家互联网大厂正在洽谈投资DeepSeek的消息大约在4月23日前后被大量媒体提及，根据《财经》的报道，当时一位接近交易的人士透露，腾讯与阿里巴巴两家投资方预计共计投资18亿美元，DeepSeek的估值超过了200亿美元。

不过到了5月，两家企业均被曝出在谈判中失利，不是因为钱不到位，而是因为他们都试图从DeepSeek手中拿到更多的话语权，这触碰了梁文锋的底线。

而据白鲸实验室报道，阿里与DeepSeek的投资已经谈崩，核心分歧在于阿里希望在AI战略上构建闭环生态，而DeepSeek坚持技术独立，拒绝了生态绑定的条件。

不过对于这个消息，市场上还出现了另一种声音：根据《每日经济新闻》在5月9日的报道，有市场人士透露，阿里应该没有进行谈判。

另据彭博社报道，有知情人士透露，腾讯提出在本轮融资中认购DeepSeek最多20%的股份。但这一样没有被梁文锋采纳。

此后，外媒The Information报道称，梁文锋将个人出资最高达200亿元人民币，占本轮计划融资总额40%，这个消息更是印证了梁文锋在这轮融资中，决不出让主动权的强硬态度。

报道还透露出腾讯已经更换了投资方式的消息，一位知情人士透露，“腾讯出资60亿，占约2%股权。”

拒绝互联网大厂抛来的橄榄枝，并自掏腰包占据融资主导权，梁文锋的融资逻辑实则一直与钱无关。

DeepSeek不缺钱，其背后是梁文锋创立的量化公司——幻方量化。

据私募排排网数据，2025年，幻方量化的平均收益率高达56.6%，管理规模超700亿元。业内人士估算，仅2025年幻方量化就为梁文锋带来了超过7亿美元的收入，这几乎构成了，DeepSeek独立运转的“弹药库”。

而梁文锋这次选择在融资上“松口”，是因为DeepSeek技术的基本盘——人才，在近期经历了不小的动荡。

2025年底至2026年初，就先后有DeepSeek-V2架构的关键贡献者罗福莉、第一代大语言模型核心作者王炳宣、R1核心作者郭达雅等核心人才离开DeepSeek，转投他厂。

梁文锋最在意的，不会是能否拿到更多融资、能否与互联网大厂建立合作、能否吸引更强大的资本……而是如何在竞对高薪“挖角”的环境下，留住自己的核心技术人员。

因此，他的这次融资，或许是希望通过外部资本给公司作出一个较为公允的估值，让DeepSeek员工手中的期权在定价上更有吸引力。

在DeepSeek最新产品DeepSeek-V4的技术报告里，写着一份长长的作者致谢名单，研究工程团队约270人中，只有10人在研发期间离去。对应下来，技术研发人员离职率不到4%，意味着梁文锋成功留住了97%的员工。

这些人，将继续按照梁文锋的思路，走向与众不同的道路。

从DeepSeek-V4身上，

看梁文锋的“逆势”思维

尽管有关DeepSeek融资的细节铺天盖地，但梁文锋与DeepSeek都没有对此进行过公开回应。反而是在此期间的4月24日，这家公司在没有任何预热的情况下，悄悄上线了行业等待了5个月的新产品——DeepSeek-V4预览版。

按照DeepSeek的介绍，DeepSeek-V4拥有百万字超长上下文，在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。

更引发市场讨论的是这款产品的定价。

在产品发布不到48小时后，DeepSeek发布了API价格调整公告，公告显示，DeepSeek-V4全系API输入缓存命中价格降至首发价的十分之一，V4-Pro叠加限时2.5折，百万Tokens输入缓存命中低至0.025元，创全球大模型价格新低。

这样的定价之所以引发关注，是因为DeepSeek-V4的核心优势——超长上下文极其消耗计算量。据了解，标准的Transformer注意力，每个token都要和前面所有token做一次计算。而上下文从8K扩展到1M，其计算量将是平方级的增长。

而DeepSeek却能在这样的情况下依旧保持低价策略，这并不是一件容易的事。

如果对比同期OpenAI发布的最新产品GPT-5.5，DeepSeek定价的优惠程度则更为直观。

以API价格为例，GPT-5.5的标准报价为输入每百万Token 5美元、输出每百万Token 30美元；DeepSeek-V4-Pro在2.5折促销期内的报价为缓存命中输入每百万Token0.025元、缓存未命中输入每百万Token 3元、输出每百万Token 6元。

图源DeepSeek官网

如果按1美元约合7.2元人民币粗略折算，GPT-5.5的输出价格约为每百万Token 216元，是DeepSeek-V4-Pro促销价的30多倍。

而DeepSeek降价的另一边，在算力成本逐渐提高的情况下，涨价和收费已经成为大模型企业不得不做出的现实选择。

例如GPT-5.5的价格比GPT-5.4整体贵了一倍；智谱AI在4月初公布了今年以来的第三次提价计划，发布新一代旗舰模型GLM-5.1的同时提价10%；Kimi在4月下旬发布K2.6时，将API输入价格从0.60美元/百万Tokens上调至0.95美元/百万Tokens，涨价58%。

一边是行业整体的涨价趋势，另一边则是梁文锋与DeepSeek的逆势降价，场面似乎与两年前惊人地相似，彼时，性价比极高的DeepSeek还意外引发了大模型行业的价格战。

之所以说是“意外”，是因为梁文锋无意引发价格战，他曾在接受36氪的采访时表示，自己对掀起行业价格战一事非常意外，“我们只是按照自己的步调来做事，然后核算成本定价。”

但也与两年前一样，这一次DeepSeek-V4也无意引发价格战，其能逆势降价、把控好成本，是靠技术创新实现的。

其中，DeepSeek-V4成本压缩的核心突破在于压缩注意力机制的改善。

其设计了压缩稀疏注意力（CSA）和重度压缩注意力（HCA）两种压缩注意力机制，前者负责精准定位关键细节，后者负责把握全局脉络。

DeepSeek将两种注意力在前向传播中每一层交替使用，将Prefill阶段的注意力计算复杂度从O（N^2）降低为近似线性的O（N*k），并线性压缩了Prefill和Decode阶段的KV Cache，减少了推理时显存和带宽的压力。

在这些层层削减之后，缓存体积已经被压缩到了90%以上。

除此之外，DeepSeek降低成本的方式还有很多。

例如其靠一套动态稀疏选择机制，将复杂度强制截断为常数级运算。在1M长上下文下，V4 Pro的单token推理FLOPs降到了前代V3.2的27%；其自研的TileLang语言，能让GPU计算与网络传输并行，硬件利用率逼近极限；针对智能体任务，用特殊标记替代额外小模型，直接复用主模型的KV Cache来并行执行一些辅助任务。把推理成本压到极致。

“我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”这是梁文锋在DeepSeek-V2引发价格战后对媒体的回应，这也同样适用于DeepSeek-V4。

对于梁文锋来说，其他企业的定价如何，并不能成为他的参考依据，他只专注在自己的技术逻辑上，开出适用于DeepSeek的定价。

梁文锋，并不着急产品迭代和商业化

梁文锋着急产品迭代和商业化吗？

如果经历过从DeepSeek-V3.2，到DeepSeek-V4之间那5个月的漫长等待，这个答案可能呼之欲出。

在DeepSeek沉默的这五个月期间，不管是美国市场的OpenAI、Anthropic、谷歌Gemini，还是中国市场的阿里千问、字节跳动豆包、腾讯混元、小米MiMo等主流模型公司，都至少发布或迭代了多款模型，几乎每2.8天就会有一款模型发布或迭代。

对于AI大模型公司而言，商业化几乎是与产品迭代相伴相生的话题。企业们害怕自己的技术被赶超，害怕失去商业化优势，进而失去自己在资本市场的想象力。

而长期不着急迭代的DeepSeek，在那段时间就已经开始被超越了。DeepSeek-V3.2的性能一度在国际市场调研机构Artificial Analysis的基准测试中，落后于penAI、Anthropic、谷歌Gemini、阿里千问、月之暗面Kimi、智谱GLM、MiniMax等旗舰模型。

更关键的是行业中掀起龙虾热后，Agent需求也随之爆发，Coding能力成为各家企业追逐的方向，而DeepSeek-V3.2，在Agent和Coding能力上也显得相对落后。

但不管其他企业的模型如何迭代、市场对DeepSeek的失望情绪有多高，这些似乎都很难影响到梁文锋与DeepSeek的开发节奏。

梁文锋有自己的坚持，在他为数不多的采访中，“实现AGI”、“不追求短期的商业化”是其反复提及的观点。

将大模型的底层技术做到极致，才是梁文锋的追求。

DeepSeek-V4一经发布，就在很大程度上追平了前代作品在Agent方面的落后趋势。

DeepSeek在发布公告中表示，相比前代模型，DeepSeek-V4-Pro在Agentic Coding评测中，已达到当前开源模型最佳水平，并在其他Agent相关评测中表现优异；在世界知识测评中，大幅领先其他开源模型；在数学、STEM、竞赛型代码的测评中，超越当前所有已公开评测的开源模型，并取得了比肩世界顶级闭源模型的成绩。

DeepSeek-V4此次更新升级的核心能力之一——上下文，是Agent工具理解并记忆大量文本的关键，而DeepSeek此次发布的两个模型都能支持100万token的上下文长度，这将大大提升Agent阅读文本、记住更多细节的能力。

根据差评的测试，将一本红楼梦中随便贴了一段三体的科幻小说内容发送给DeepSeek-V4查找异常，它用几秒钟就找到了。

另一个细节也体现了梁文锋与DeepSeek不强调全球领先、将底层技术做到极致的态度——在产品的发布公告中承认自己与竞对存在的差距。

其表示，目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型，据评测反馈使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存在一定差距。

图源DeepSeek官方微信公众号

对于AI行业已经说了很长时间的多模态故事，DeepSeek也是慢慢来的态度。

如今的DeepSeek-V4仍未搭载原生多模态能力，目前只有市场消息透露，其将在今年6月推出的V4模型迭代版本——V4.1会新增图像、音频理解处理能力，但输出形式仍仅限文本生成。

种种迹象都在表明，如果没有将产品的技术水平做到极致，外部市场动态与声音，撼动不了梁文锋的研发节奏和目标。

2024年，梁文锋曾在36氪的采访中表达过这样一个观点，“过去三十年，我们都只强调赚钱，对创新是忽视的。创新不完全是商业驱动的，还需要好奇心和创造欲。”

两年过去，梁文锋鲜少再对外发声，但很明显，他不想让商业驱动创新的态度，直到现在都没变。

上一篇：北京国际人力获评世界品牌莫干山大会"人工智能+"生态创新实践范本

下一篇：万亿IPO前夕迎大考：奥特曼今明两日将在马斯克诉讼案中出庭作证

返回列表

相关新闻