智谱开源千亿参数视觉大模型 能区分麦当劳肯德基炸鸡
4 周前

8月11日,智谱发布了其最新一代视觉理解模型GLM-4.5V,并宣布该模型已开源。GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air进行训练,延续了GLM-4.1V-Thinking的技术路线。该模型拥有106B(即1060亿)总参数和12B(即120亿)激活参数,在41个公开视觉多模态榜单中综合效果达到同级别开源模型的SOTA性能,涵盖图像、视频、文档理解以及GUI Agent等常见任务。此外,GLM-4.5V还新增了思考模式的开关功能,用户可以根据需求自主控制模型是否进行深入思考。