只能说,AI圈你追我赶的激烈程度,远比想象中猛烈。
怎么个事儿呢,这得说到前几天。上周五深夜,Kimi放出了万亿参数的MoE模型Kimi K2,然后这款国产AI就因为big and beautiful在海外技术圈刷屏了,很火的那种。
有一说一,差评君上次测评Kimi的新产品,还是在今年1月。沉寂了半年,没想到Kimi这次直接选择了开源的旗舰模型,好好好,这格局简直了。
而且,仔细研究了一顿之后我发现,这个K2,让老外着迷不是没有原因的。
简单来说,这次的Kimi K2想要做的,不只是以前那种我问你答的聊天机器人了,而是有了初步的任务规划和使用工具的能力,只要告诉它有哪些工具可以使用,它就会根据任务的需求,自主地调用不同的工具来完成任务。
但重点是,对于一个开源大模型来说,Kimi 团队把K2的部分能力做到了接近闭源顶流的水平,这就很了不起了。
所以海外很多圈内大佬,这次也都坐不住了。
比如拿了黄仁勋投资,日本AI新秀Sakana AI Labs的创始人,就完全被Kimi K2的损失曲线征服了,说这是每个圈内工程师梦中的画面。
Hyperbolic labs的联合创始人兼首席技术官,看完更是直接爆粗口了,上来就一句Holy谢,说这简直太疯狂了,这么逆天的东西居然连论文都不发,只放到了博客上。
还有不少AI博主,像是Prime Intellect的研究员,也直接高呼,一个新的DeepSeek Moment到了。
甚至不少人都开始挖,这Kimi的创始人是何许人也。
除了这些,不少大咖也纷纷发推安利,像AI美术工具MagicPath 的CEO Pietro Schirano,用完直接爱上了。
他说这是自Claude 3.5 Sonnet以来,他用过的最舒服的模型。
还有一家市值十亿美元,做AI应用的公司Greywing,创办人Hrishi Olickel把它跟同样前几天发布的Grok4对比了一下,发现Kimi K2直接给Grok4干碎了。
大家用的都是同一套提示词,结果Grok4愣是没一次能赢,直接抬走的水平。
更牛逼的是,我还看到Hugging face联合创始人Thomas Wolf,也对Kimi K2大加赞赏,说这简直难以置信,还向外国网友们安利了一波月之暗面团队。
就连估值150亿美元的知名AI搜索公司Perplexity ,他家CEO,前OpenAI研究科学家 Aravind Srinivas,都在推上公开圈了月之暗面,希望他们Perplexity以后能基于Kimi K2进行训练。
要知道,之前DeepSeek R1也被Perplexity用来训练过,可见这种认可的含金量。
甚至有不少业内人士猜测说,OpenAI甚至推迟了他们家开源模型的发布,不知道是不是为了暂避锋芒...
反正从基准测试成绩上看,没准也有可能。
Kimi K2在代码、工具调用、数学、通用知识等性能测试中,表现都相当不错,一些项目甚至领先于顶尖的闭源模型。
SWE-bench榜单的作者Ofir Press,看到这成绩以后还专门发文点赞了Kimi团队。
说实话,评分这东西也就是个数字,是不是真的厉害那还得亲自上手了才知道。
结果等到哥们上手一测,发现这Kimi的实力是真的有点超出预期,特别是在写代码上,比如在html里实现3d场景生成。
不多bb,直接看结果,咱拉来了性能最强,但也巨贵的Claude和Gemini 2.5pro,让开源的,价格实惠的Kimi K2,跟这俩同台竞技。
提示词给的也都是一样的,大概就是做一个3d版的地球出来,还要有夜间灯光那种。
首先看Kimi,我感觉它这个光线做的就非常舒服,没有特别亮的地方,暗部也不全黑,能看见城市灯光。而且这个地球上的云层,不是贴上去的,这玩意可以实时移动位置,真的是在飘的!