月之暗面Kimi发布技术报告,重新设计了大模型核心结构中的残差连接,使模型每一层能选择性关注此前各层输出。这一改进使48B模型训练效率提升了1.25倍,被视为下一代模型的关键模块。该研究由月之暗面三位联合创始人带领数十名研究员共同完成。论文发布后,得到了马斯克、Andrej Karpathy、Jerry Tworek等人的高度评价。