京东开源 JoyAI-LLM-Flash 大模型：总参数 48B，激活参数 3B - AI - JQman

Just Quick Just Quality

热门话题

白天

搜索

/

/

资讯

/

/

京东开源 JoyAI-LLM-Flash 大模型：总参数 48B，激活参数 3B

3 小时前 / 阅读约2分钟

来源：IT之家

京东在Hugging Face平台开源JoyAI-LLM-Flash大模型，拥有3B激活参数及48B总参数，采用全新优化框架FiberPO和Muon优化器，解决了传统模型规模扩展不稳定问题，吞吐量提升1.3x-1.7x。

感谢IT之家网友软媒用户389454 的线索投递！

IT之家 2 月 15 日消息，京东昨天在 Hugging Face 平台开源了 JoyAI-LLM-Flash 大模型，拥有 3B 激活参数以及 48B 总参数，在 20 万亿文本 Token 上进行预训练，擅长前沿知识理解、推理能力、编程、智能体等方面。

据介绍，这款模型拥有全新优化框架 FiberPO，能够将纤维丛理论（fiber bundle theory）引入强化学习，并在训练中使用 Muon 优化器，通过微调 SFT、DPO 以及强化学习（RL）进一步训练。

同时，这款模型结合了 Muon 优化器以及稠密 MTP（Multi-Token Prediction），解决了传统模型规模扩展时不稳定的问题，相比非 MTP 版本吞吐量提升 1.3x-1.7x。

IT之家附该模型详细参数如下：

项目	参数
架构	混合专家模型 (MoE)
总参数量	48B
激活参数量	3B
层数（含 Dense）40
Dense 层数量	1
注意力隐藏维度	2048
MoE 隐藏维度	768
多头注意力数量	32
专家个数	256
每 Token 专家数	8
共享专家数	1
词表大小	129K
上下文长度	128K
注意力机制	MLA
激活函数	SwiGLU

上一篇：阿里千问你别太荒谬！连漫画PPT都能一键生成？我以前那些夜真是白熬了

下一篇：马斯克：Grok 4.20 下周发布，较 4.1 版改进重大

2 天前

又一家2万亿级AI独角兽诞生

2 天前

GPT-4o的最后一夜：当人类开始为一个AI举办葬礼

2 天前

和GPT-4o最后的夜晚，80万人失去「白月光」

2 天前

JPR 报告 2025Q4 全球服务器 CPU 市场：AMD 份额 28.8%、英特尔 71%

2 天前

Tower高塔半导体：英特尔有意终止双方晶圆代工制造合作

2 天前

智谱与Minimax交出“大招”之后，DeepSeek“平A”了一下

2 天前

从xAI联创“转身”看行业局势，全球头部AI公司人才创业观察

2 天前

特斯拉上海招聘智驾测试工程师：会微控制器、赛车加分，有望为 FSD 入华作准备

2 天前

特斯拉上海招人测FSD：会赛车加分

2 天前

一天两枚“代码核弹”：OpenAI 祭出首个“主打实时协作”的 Codex 模型，谷歌放出 Gemini Deep Think，码力冲到世界前8

上一篇：阿里千问你别太荒谬！连漫画PPT都能一键生成？我以前那些夜真是白熬了

下一篇：马斯克：Grok 4.20 下周发布，较 4.1 版改进重大

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们