2025年11月13日,微博人工智能部门推出开源大型语言模型VibeThinker-1.5B。该模型拥有15亿参数,基于阿里巴巴Qwen2.5-Math-1.5B微调,在Hugging Face、GitHub和ModelScope等平台免费开放,供研究人员和企业开发者使用,甚至可用于商业目的。VibeThinker-1.5B采用“谱-信号原则”(SSP)训练框架,将监督微调和强化学习分为两个阶段:第一阶段注重多样性,鼓励模型发散探索所有可能的解题路径;第二阶段通过强化学习优化最优路径,精准锁定正确推理路径。该模型在AIME24、AIME25、HMMT25数学测试集及LiveCodeBench v6编程测试中表现超越或接近参数量超其数十至数百倍的模型,单次后训练成本低于8000美元,远低于同类或更大规模模型所需的数十万甚至数百万美元。
