英伟达开源 TwoTower AI 模型:保留 98.7% 质量,Token 生成提速 2.42 倍
7 小时前 / 阅读约3分钟
来源:IT之家
英伟达发布Nemotron-Labs-TwoTower,一种基于预训练自回归骨干网络的离散扩散语言模型,采用双塔架构,将上下文表示与去噪过程分离,提高生成速度,综合基准测试质量保留98.7%,吞吐量提高2.42倍。

IT之家 7 月 3 日消息,英伟达昨日(7 月 2 日)发布博文,宣布推出 Nemotron-Labs-TwoTower,是一种基于预训练自回归骨干网络的离散扩散语言模型,致力于解决大模型 Token 生成速度瓶颈。

在开源方面,该模型以开源权重形式在 Huggingface 平台发布,授权协议为 NVIDIA Nemotron Open Model License。

参数方面,该模型总参数为 60B,采用双塔(TwoTower)架构,包括 30B 的自回归模型(AR)/context Tower 和 30B 的扩散 / 降噪 Tower,每个 Tower 激活 3B 模型,128 个可路由专家。

架构方面,TwoTower 最大的亮点,在于拆分传统扩散语言模型中的网络任务,将文本生成任务中的上下文表示与去噪过程分离到两个独立的神经网络“塔”中。

其中一个塔(上下文塔)保持冻结,专注于维护文本的自回归上下文;另一个塔(去噪器塔)经过训练,负责对噪声块进行去噪,两个塔通过逐层交叉注意力连接协作。

性能方面,英伟达表示从综合基准测试质量来看,双塔架构保留 98.7% 的质量表现,但是实际运行时间吞吐量提高了 2.42 倍。IT之家附上相关测试结果如下:

任务Nemotron-3-Nano-30B-A3B (AR)Nemotron-Labs-TwoTower (diffusion)
MMLU (5-shot, acc)78.5678.24
MMLU-Pro (5-shot, CoT EM)62.5960.93
ARC-Challenge (25-shot, acc_norm)91.7292.66
WinoGrande (5-shot, acc)76.0976.09
RACE (0-shot, acc)88.9088.90
HumanEval (0-shot)79.2775.58
MBPP-Sanitized (3-shot)74.7174.28
GSM8K (8-shot, acc)92.4990.14
MATH-500 (4-shot)84.4080.60
MMLU Global Lite (5-shot)73.9773.94
MGSM (8-shot, avg acc)80.8080.40
Quality retained100%98.7%
Generation throughput (× AR)1.0×2.42×