IT之家 5 月 22 日消息,单细胞大语言模型通过解码细胞的“分子语言”,为揭示生命奥秘和疾病机制提供了全新范式。然而,现有模型受限于数据规模与算力瓶颈,性能难以实现质的飞跃。
针对这一挑战,中山大学杨跃东教授团队联合重庆大学、华为、新格元生物科技,依托国家超算广州中心“天河星逸”超算系统的计算能力,基于国产智算芯片成功研发出全球规模最大的单细胞基础大模型 CellFM。
该模型创新性地整合了超 1 亿人类单细胞数据(规模达同类 2 倍以上),构建了 8 亿参数的深度学习框架(参数量超同类 8 倍),在生物表征学习和跨数据集泛化能力上取得重大突破。
5 月 20 日,相关成果成功发表于国际顶尖学术期刊《Nature Communications》,CellFM 是国产芯片训练大模型的一个成功案例,也是我国生物智能计算领域的重要研究进展,为精准医疗和药物研发提供了智能化新引擎。
IT之家附论文和代码地址:
https://www.nature.com/articles/s41467-025-59926-5
https://github.com/biomed-AI/CellFM