3月16日,月之暗面Kimi发布技术报告,重新设计了大模型核心结构——残差连接。新设计让模型每一层能选择性关注此前各层输出,而非统一求和。测试表明,48B模型训练效率提升了1.25倍。该研究由Kimi联合创始人杨植麟、吴育昕、周昕宇等人共同完成。论文发布后,马斯克发文称赞“令人印象深刻”。