给DeepSeek的最后一封催更信 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

给DeepSeek的最后一封催更信

3 小时前 / 阅读约25分钟

来源：36kr

DeepSeek推动AI降本，但“小龙虾”等应用推高成本。中国AI叙事已变，形成“中国团”“中国链”“中国环”。Token经济崛起，开源生态变化，期待DeepSeek V4实现代际跨越。

前段时间，《人民想念DeepSeek》刷屏，文章提到一点——DeepSeek推动了全球大模型的降本，让用户和行业得以享受更便宜的Token。

关键的问题是，“小龙虾”这类智能体应用的疯狂“烧Token”，再次推高用户的使用成本，这种情况下，推动全行业降本增效的重任又落到了DeepSeek的肩上。

算算时间，DeepSeek V3、R1发布已一年有余，外界原本预期DeepSeek V4今年春节会来炸场，但最终希望落空。不过，从近期宕机、专家模式上线等一系列动态来看，感觉DeepSeek V4有可能离我们越来越近了。

所以，这可能也是最后一次“催更”DeepSeek。

在这封催更信里面，我想和那些想念DeepSeek的朋友，聊聊中国AI的叙事、技术进化的浪潮、生态竞争、Token经济学这些话题。

中国AI叙事已变

2025年春节，DeepSeek R1以低成本+高性能+开源亮相，发布即巅峰。不仅在国产大模型领域一骑绝尘，而且风靡世界，互联网平台、IT巨头、各行各业纷纷接入，且拥抱开源，形形色色的DeepSeek一体机都尝试着抢戏。

在那段时间，谈及中国AI，言必称DeepSeek，毫不夸张的说，街头的爷爷奶奶都可能在谈论，甚至使用这款国产AI助手。

只是，过去一年人工智能产业和中国的AI叙事，早已不是一重天：围绕人工智能的“中国团”“中国链”“中国环”——三重叙事交织成形。DeepSeek独撑的AI中国叙事，失去了色彩。

所以，在这个角度看大模型和人工智能，大家缺的不光是算力、电力，缺的也是时间窗口。

关于“中国团”，我把它概括为“（3+1）+6+N”，其中“3+1”是四大厂，对应字节、阿里、腾讯和百度，后面三家是互联网时代的三巨头，大家熟知的BAT。而数字“6”对应的是大模型时代的“六小虎”——Kimi、智谱、MiniMax、阶跃星辰、百川、面壁智能，主要几家在DeepSeek埋头自研的时候，完成了上市或者在冲刺上市。

“六小虎”里面原来是有李开复的零一万物的，但在第一次百模大战中，零一万物开始掉队，所以这里我们把面壁智能放了进来，但其实百川过去一年多，声量也逐渐微弱。

“N”其实不单只某一家，它对应的是其他垂类模型和专业市场的AI企业。

总计10家/类企业构成了中国大模型产业头部态势，他们已不是散兵游勇，而是一个具有集群竞争力的产业军团，也是DeepSeek再次封神之路上，必须要逾越的对手。

与“中国团”同步成长的也包括“中国链”——从芯片算力、集群/云、数据语料、算法/模型、智能体、AI应用开发生态，已经完成了全链贯通，成为全球范围内唯二的智能科技全产业链国家，有希望为全球智能基础设施多提供一种选择，也有希望以能力经济的能力输出为全球智能普惠提供新的公共品。

这一点大家不要怀疑，DeepSeek R1当年的确打出了中国模型在海外的品牌，但现在MiniMax这些厂商，在海外的业务一样做得有声有色。

而关于“中国环”，覆盖了产业、应用和投资三个方面——从AI到AI4S再到现代产业群的产业闭环，从AI科技到千行百业、亿万家庭的市场应用闭环，从早期投资到上市退出的资本闭环。闭环初步成形不仅意味着人工智能在中国跑通，更意味着智能经济不同层面的大循环小循环由此贯通。

从团、链到环，中国的AI叙事已然发生改变。

不考虑企业免费的营销策略，2026年初以来，六小虎的模型在OpenRouter等国际平台上的Token消耗量占比接连领先，且总体份额过半，主要是海外用户。

概括来说，2025年中国的开源力量改变了全球人工智能发展格局。到了2026年，中国人工智能发展进入向外能力输出阶段。

从全球大模型和人工智能产业的视角来看，技术路径的多元化，增强了人才流动活力，有利于供应链韧性。对于下游的应用开发者而言，多家可选供应商的存在意味着更强的议价能力和更低的锁定风险。

在中国的AI叙事里面，还有一个比较好的现象在于，市场还没有被少数寡头垄断，这对于竞争创新和人才生态建设是好事，也有利于在中美AI竞争中形成集群优势。

四波浪潮已经过去

中国古典神话总说“天上一天，人间一年”，DeepSeek“断更”的这一年，人工智能已经过去了四次浪潮——编程、多模态、智能体、OpenClaw（小龙虾）。

当GitHub Copilot、Cursor、Claude Code等AI编程工具席卷开发者社区时，在Vibe Coding的故事中，人们很难记得起DeepSeek的存在，尽管它也会被用到编程场景。

编程，这个人工智能席卷一切行业的底层驱动、开发者最刚需的场景，如今在国外被Anthropic等牢牢占据，在国内成了Kimi们跑马圈地的战场。

而在多模态这波浪潮中，Gemini 3 Pro等在视觉理解、图像生成领域均有不俗表现，大家能够记得的是Nano Banana，而在视频生成领域，是字节的Seedance 2.0。

DeepSeek像是一个慢热的选手，直到V3.2才开始灰度测试百万Token上下文，多模态能力更是还没到来。

有人说，在大模型领域，一旦一代产品技术路线错了，就会错过一个时代？DeepSeek是卡在这里了吗，也很难说。

第三波浪潮是Agent-多Agent-蜂群智能。相比AI助手的理解和对话能力，Agent已经进化到了执行层面，从“答题”转向“解题”——过去是“被动应答”，现在则是“主动执行”。在这波浪潮中，Manus等产品的涌现，标志着AI Agent正在从概念走向落地，Kimi Agent Swarm则将这一波推向高潮。

DeepSeek在这一波浪潮中，更多只是作为模型被调用，不是Agent生态的构建者，模型本身对Agent、工具、代码的支持水准也比较有限。

时间来到2026年，以OpenClaw等各类Claw、Claude Code、Claude Cowork等为代表的行动智能浪潮开始出现，它们的能力实际已经超越Agent层面，成为接管型应用操作系统——应用AI OS。

只不过，OpenClaw这类产品也被戏称为“Token黑洞”，其单任务的Token消耗量是传统对话AI的几十倍甚至上百倍。这种高投入低产出的模式，在产业规模化应用中面临可持续性难题，产品本身的粗糙、不稳定和多次破坏性的版本迭代，像极了毛坯房。

所以有人在喊“人民想念DeepSeek”也不奇怪，毕竟几波浪潮，都没了它的影子，毕竟人民需要它来推动中国大模型的降本增效。

但必须要说的是，OpenClaw确认应用AI OS、通用行动智能体的逻辑是成立的，而且时机到了。它告诉所有人，AI不再只是工具，而可以是全能的接管型代理。

所以3月“全民养虾”大潮里面，你看大家抄作业速度多快，为了推广本土产品，大家都开始送起了“赛博鸡蛋”，因为OpenClaw让包括Anthropic在内的大厂瞬间看明白，原来包打一切的应用OS、行动智能就近在眼前，脑子都有了，任务也能执行，长出个手脚变成通用智能体还不容易！

也是因为这个原因，Anthropic反应、反制都是最快的，也是对Claw冲击最大的。Claude Code包抄OpenClaw后路，其它大厂又纷纷快速抄Claude Code和OpenClaw的作业。这就是眼前正在发生的事。

之所以兵家必争，是因为这件事的入口地位、巨大价值以及未来的生态支配地位，不亚于模型，不亚于前三波浪潮。

如果说大模型在积蓄力量，多模态是拓宽场景，Agent代表撒种子，那么对生态进行大面积收割要靠应用AI OS、通用行动智能体，现在已经多多少少有些终局的意味和终极形态的影子。到了EI内生智能、II自主智能阶段，可能要另当别论。

不过，就今天OpenClaw的投入产出比来说，能占据AI OS、通用行动智能体生态位的可能不是它。

所以在这最后一份致DeepSeek的催更信里面，我们也想提一个问题：没有第一时间跳进这四条河流的DeepSeek，是不是在选择蓄力，希望通过V4以及之后的基座模型“搞个大的”？

只是，市场从不等待，用户的注意力、开发者的热情、资本的流向，都在一波又一波的浪潮中被分流。这四波浪潮所在的领域，竞争门槛都已急剧抬高，生态化成本也大幅度增加。

DeepSeek的故事，只能停留在2025年的春节吗？

全生态竞争到来

之前我的看法是，头部企业已经到了全生态竞争阶段。在这个阶段，全栈AI能力是接下来巨头角力的基础，最好的例子就是Google。

Google之所以在Gemini 3 Pro那一波受到高度关注，源于他们在四个方面累积的“厚度”优势逐步显现：模型原理原力持久进化度（Evolutionary Index）、数据深度（Data Index）、全链生态广度（Ecological Index）、智能连接度（Connectivity Index）。

谷歌CEO皮查伊在任差不多10年了，在刚刚的访谈中，他回忆了Transformer被ChatGPT抢跑的这段意难平的往事，但是他不认为失去先发优势就会输，他把谷歌的优势总结为全栈垂直整合。

所以到了Gemini 3 Pro，基于这种全栈整合，谷歌打了一个漂亮的翻身仗。

可以大胆的预判一下，2026年，美国人工智能产业头部的竞争，可能的节奏是Anthropic先拔得头筹，Google紧接着全线压上，而抢跑的OpenAI面临左右包夹的局面，最终四强变三强，掉队的那一强是被进一步拉开差距的Grok。

2026年的GTC，在前期预热环节，黄仁勋少有的写了一篇文章，提出了“五层蛋糕理论”：能源 → 芯片 → AI基础设施 → 模型 → 应用。

但如果要拆得更细，人工智能的竞争也体现在芯片算力、数据语料、模型基座、开发工具与开发者、智能体与工具技能、应用服务这些环节，每一个环节的失位都可能导致整体竞争力下降，而竞争、投资的门槛，已经成为了百亿、千亿美元级的重资产游戏。

创新，不再限于“弯道超车”，更在于系统比拼、体系对抗。尤其是大模型所依赖的资本、算力、算法和数据等要素，成为决定性的关键因素，吃一颗大力丸，吃一碗海参，解决不了太多问题。

全生态竞争的格局中的DeepSeek，原理产生原力——底层突破——虽然还有优势，但短板也同样明显：缺乏IT巨头的产业生态链支持，产品应用功能相对单薄，多模态与Agent生态建设有待加强。

Token经济崛起

Token经济新年起势，Token经济是智能经济作为能力经济的价值闭环，这是我在央广网采访中的观点。

过去，在工业时代，能源单位是千瓦时，在数字时代的流量单位是GB，智能时代的能力产品的供给单位就是Token，Token让AI的“能力”成为可计量、可定价、可交易的商品。

你可以这样理解：Token成为了连接技术与商业的“结算单位”，进而使得能力经济的商业闭环正在形成。

Token的消耗量，正在以几何级增长速度膨胀——中国日均Token调用量从2024年初的1000亿跃升至2026年3月的140万亿，两年增长超千倍，消耗的越多，就代表着能力经济的蓬勃发展。

对于企业来说，通过价格杠杆实现毛利率提升，这意味着它的盈利模式局部已经跑通。

只不过，Token是计量单位，不是计质单位。产业界不能只看Token数量，更要关注背后的“能力质量”。所以，我觉得未来Token经济的分化会很明显——能力水准高的Token赚钱，能力水准低的Token亏钱，后者甚至被淘汰。

所以，小米的罗福莉在给MiMo大模型套餐“带货”的时候说：“当前全球算力供给已经跟不上Agent创造的token需求。真正的出路不是更便宜的token，而是共同进化——更省token的Agent框架与更强大、更高效的模型的协同。”

今年有一个很典型性的趋势，用户一边在喊Token贵，一边又在给Token付费，本质上是消耗的一部分Token转化为了生产力，而当Token付费成为潮流，企业就可以获得营收才能投入研发更高水准模型，这是在为智能经济造血。

模型、智能体企业商业化最直接的两条路：要么靠付费订阅回血，要么通过API以Token资费套餐造血。OpenAI在AI助手的对话下面关联广告这种做法，存在着太多的不确定性，行业里还没有第二家跟着出牌。

我认为，在推理驱动的Token经济时代，率先跑通的场景我认为有三类：高价值高密度场景（如金融风控、医疗诊断，客户愿为“不出错”支付溢价）；高频高刚需场景（如智能客服、代码生成，靠规模摊薄成本）；以及Agent智能体广泛应用的场景。

未来，Token会像水像电一样成为基础服务，薄利、普惠、泛在。单位Token成本会持续下降，但Token经济会分层：常规能力水准的Token趋向薄利，以量取胜；高能力水准、高价值的Token可能持续保持溢价。

更具象地说，能够构建场景+数据+平台+模型闭环、提供高价值智能体服务的企业将获得溢价。

量化投资出身的DeepSeek虽不差钱，但从可持续发展角度来看，也需要拥抱Token经济。

开源生态等待第三次转折

过去一年多时间，开源生态格局变了。

2025年初，DeepSeek对开源生态完成了第一次引爆。今年初，OpenClaw完成了对开源生态的第二次神助攻。第一次引爆使得一些闭源模型也向开源靠拢，国内如百度等巨头加入开源阵营，海外如OpenAI、Google等也在加大开源力度。

根据OpenRouter平台对100万亿Token调用数据的分析，开源模型的市场份额已攀升至33%。中国开源模型的异军突起尤为引人注目，OpenRouter平台前六位当中一度有五家是中国的开源模型。

开源模型的崛起，是由技术迭代、用户需求和经济因素共同驱动的结果。企业选择开源模型的核心动因变得非常现实：闭源API成本与调用规模强相关，边际成本不可控；自托管开源模型在高并发、长上下文、Agent场景中，单位成本显著下降。

用直白的话说，只要能力在线，开源模型在私有化部署场景下，用得越多，就越便宜。作为开源模型生态的搅局者，DeepSeek在2026年，大概率还会对开源业态再次助推一波。

这种预想中的推动涵盖了算力成本的产业冲击效应、用户市场的引爆效应、开源生态的激发效应，以及对于市场信心的提振效应等，可能会再次出现。

这是人民想念DeepSeek的底层逻辑，价格只是一个表象。

开源虽好，但建设仍然任重道远。

对DeepSeek来说，它还需要尽快形成开发者生态，支持Agent开发生态，建立Apps以及类似Skills的技能封装与分发渠道，以提升开放性、灵活性，同时吸引更多开发者参与其中。

期待DeepSeek再次成为开源生态的关键一推。

对V4的期待不是过去的标准

大洋彼岸的悬念是，OpenAI和Anthropic的下一代模型能打到什么程度，Super App能不能像正在生态化的Claude Code一样成为应用OS和通用行动智能体，以及Coding这把生态底层尖刀谁最快，这三件事会影响今年的大风向。

从现在的局势来看，Anthropic的火已经快烧到OpenAI的大本营了，这一点可以翻阅华尔街日报披露的两家财务数据，Anthropic有可能抢在OpenAI之前扭亏为盈。

在这种背景下，我们期待DeepSeek的什么呢？

把前文的这些观点总结一下，它应该包括V4、R2实现代际跨越、100万Token的上下文窗口（刚刚开始灰度测试）、原生多模态能力、万亿参数级别的基础模型应该是最基本的起点。

可是，这些都是过去的标准，不应该是V4、R2的能力上限。站在今天这个时间段，DeepSeek需要的是在多Agent能力、工具使用、电脑操作以及背后超强的代码能力上实现突破。

大家也不用过度焦虑，AI Agent虽大热，但目前仍处于已有能力整合的阶段，离真正意义上的自主智能体尚有距离。

未来，AI Agent可能会出现四种路径：云端虚拟机整合、本地与云协同的端侧混合模式、通过协议实现智能互联，或以“超级OS”形式重构所有高频应用入口。不管哪一种路径，它最终都将成为个人智能服务的枢纽，成为未来竞争的战略制高点。

旧的标准已不匹配DeepSeek V4，所以在这封催更信里面，我对它的期待不仅是一个更强大的语言模型，更是一个能够自主执行复杂任务、整合多种工具、与外部环境高效交互的智能体基座。

就像前面说的，期待它“搞个大的”，而DeepSeek实际进行的模型原理探索与产品技术进展，似乎也在印证这个“大”节奏。

去年10月以来，DeepSeek在大模型领域的论文发布与产品局部更新动作持续加速，形成了密集的创新节奏。

从2025年12月发布DeepSeek-V3.2，到2026年1月集中放出mHC、Engram、DualPath等三项核心架构论文并大幅更新和扩展之前发布的R1技术报告，整体研发呈现出覆盖架构创新、推理效率、多模态、智能体能力的立体化推进态势。这一系列工作被普遍视为下一代旗舰模型DeepSeek-V4的技术前奏。

DeepSeek并未正式确认这些创新将如何融入V4最终架构，但论文的作者署名（包括创始人梁文锋）、代码泄露以及平台可见的变化均指向这一方向。

2025年10月的DeepSeek-OCR系列探索了将文本信息通过视觉表征进行压缩的可能性，颠覆了“文本token比视觉token更高效”的传统假设。OCR 2的视觉因果流机制进一步让模型能够像人一样依据版面逻辑“看懂”文档，而非机械扫描。这为多模态模型理解和处理极其冗长的文档（如整本书、整份财报）提供了全新的思路，有望将大模型的上下文窗口扩展至数千万token量级，而无需承受平方级的计算复杂度增长。

mHC技术针对的是万亿参数级模型训练中的根本性难题：信号爆炸，突破“深层网络稳定性”这一规模化发展的瓶颈，为万亿参数级开源模型的训练铺平道路。也有助于在不依赖先进制程芯片的情况下，通过架构创新实现模型深度扩展。

Engram面向长上下文与持续学习的工程化解决，其条件记忆机制理论上支持跨会话的持久化记忆，突破当前大模型“无状态”推理的限制，推理效率不再被知识密度所拖累。它挑战了传统Transformer“以计算换记忆”的设计范式。该方法将静态知识存储在外部稀疏表中，使模型前馈网络专注于动态推理。这种“神经-符号”混合架构使模型在保持百万token级上下文的同时，有希望显著降低推理成本。

2025年12月的V3.2版本已经初步展现出“跨工具记忆保持”能力，解决了传统AI Agent在多工具调用时丢失推理链的问题，并且通过稀疏注意力机制使128K长上下文推理成本降低数倍，内存占用减少70%。

另外，DeepSeek联合北大、清华发布新论文推出的智能体推理框架DualPath，针对智能体大模型推理的存储带宽瓶颈，创新双路径KV-Cache加载机制，让数据读取与GPU计算并行，彻底解决传统架构算力空转问题。实测离线推理吞吐量最高提升1.87倍，在线Agent运行效率提升1.96倍，用纯软件优化实现性能翻倍，堪称AI基础设施的颠覆性突破，提高成本效率的风格非常DeepSeek。

种种迹象表明，即将发布的新一代旗舰模型DeepSeek-V4大概率将整合文本、图像、视频生成能力，并采用原生多模态预训练而非后期拼接，模型参数在万亿以上，并且具有较强的记忆、工具、代码、学习能力和对智能体的良好支持。

国产模型与国产算力的双剑合璧

模型之外，对DeepSeek V4的另一个期待，是希望与国产算力经过磨合探索之后双剑合璧。

现在已经有不少报道在讨论，DeepSeek在发布V4之前，未向英伟达、AMD等美系芯片商提供预览，而是选择提前数周向包括华为在内的中国芯片供应商开放访问权限，以确保模型在国产算力平台上完成深度适配与优化。

这也是外界认为DeepSeek V4晚点的一个关键原因。

适配国产算力，这条路对国产模型来说非常艰难，但从更长远的时间来看又不得不做。一件不得不做的事情，总要有起点，或许DeepSeek V4就是那个起点。

当模型伸出橄榄枝，压力就给到了国产算力，它要求效能到产能再到有效供给，都要能够进一步跟上，与模型、智能体发展形成生态协同。

如果DeepSeek V4和R2被实证从训练到推理能够在国产芯片上跑出世界一流的水平，并且成本更低，就有希望大幅度摆脱对海外算力的依赖，打破黄仁勋借SemiAnalysis给自己贴的那张“Token之王”的标签。

如果大家还有印象，DeepSeek R1问世那一夜，英伟达暴跌近17%，单日最大市值蒸发纪录5890亿美元。

英伟达暴跌对科技股投资者来说不是一件好事，但如果是DeepSeek推动的，那么我们喜闻乐见这样的情况再次发生。

糖水智能与原力智能分层

在这封信的尾声，如果还要提一个期待——DeepSeek能够在另一个Scaling Law上做出突破。

这种突破不是传统意义上的“模型越大能力越强”，而是小体量模型不断Scaling大体量模型的能力。

基于“原理-算法-训练-思考与推理能力的进化”以及“智能的压缩-蒸馏-内化”这两个技术路线，每个阶段的小体量模型不断达到上一个阶段大体量模型的能力水准，乃至于不断接近和达到日常高可用水平，然后在此基础上能力-应用-场景-价值逐步分层。

小模型、常规智能服务于简单基础日常，以量见长，开放、端侧、边缘部署和成本效率更优——这是“糖水智能”，是Token经济里的喝汤部分。

大模型、超级智能服务于企业行业商业-生产力-专业科技-重型任务，高水准产生高溢价——这是“原力智能”，是Token经济里的吃肉部分。

关于小模型的能力进化，Google Gemma 4是一个不错的参照系，它包含了2B、4B、26B和31B四个版本，覆盖手机到工作站全场景。其中31B Dense模型在Arena AI开源排行榜排名第三，26B A4B MoE模型排名第六。四款模型均支持图像和视频输入，支持140多种语言，内置可开关的思考模式。这不是简单的参数压缩，而是智能的蒸馏与内化——通过更高效的知识迁移、更精密的量化剪枝、更先进的蒸馏技术，让小模型拥有大智慧。

期待DeepSeek能在30B-70B-120B这三档高质量模型，盖过Gemma-4，企业级部署能够以万亿参数的开源模型超越“六小虎”曾经达到的水平，开创新的格局。

而在端侧，也期待DeepSeek在1B-8B这一档的轻量化模型上实现同样的突破。当端侧模型能够在消费级显卡甚至手机上流畅运行，当个人手机、电脑里的端侧模型数以亿计，当每一个普通用户都能拥有较强的AI能力，便是智能平权、智能经济的普惠形态。

写在最后

2026年是新一代前沿模型和接管型智能体的“跳变式发展”之年，每家AI企业都将打出自己的王牌，引发新一轮的产业洗牌。

“中国团”需要DeepSeek的回归，开源生态需要DeepSeek的推动，Token经济需要DeepSeek的深度原力智能，国产算力需要DeepSeek的验证。

现在，中美模型能力在日常问答的常规智能部分几乎已经没有差距，但在长程复杂任务的深度智能方面还有差距。这种差距，使得大家对DeepSeek心生期待。

这是最后一次催更，也是最后的召唤。V4与R2身上，肩负的期待不仅是模型的迭代，更是一个年代的发展进阶。从模型之战到全生态之战，从单点突破到全栈AI竞争，从跟随模仿到自主创新——DeepSeek的下一步，是不是能够定义中国人工智能的下一步？

希望DeepSeek这一年多的“沉寂”，是为了更好的爆发。

上一篇：最强Claude比黄金还贵，有人用省token.skill 立降65%，还有10个小妙招

下一篇：1.24亿抢科学家后，大厂盯上13岁AI产品经理

返回列表