5月28日,DeepSeek在内部社群低调宣布 R1 的“0528”小版本试升级,并同步将新权重上传至Hugging Face与OpenRouter。
图:Hugging Face官方页面,公布了模型权重,但Model Card部分未更新
截至目前,官方还未公布完整技术报告。腾讯科技从Benchmark测试和社区的实测案例整理了本次升级的主要内容:
● 上下文窗口翻倍:API 文档与旧版R1标注 64 K,“0528”在实测中开放到128K。
● 代码生成性能跃升:LiveCodeBench最新榜单显示,R1-0528仅次于 OpenAI o3、o4 mini,超越xAI Grok 3 mini与阿里Qwen 3;生成的网页和交互更美观、可执行性更高。
图:在LiveCodeBench上,DeepSeek-R1-0528 接近 OpenAI 最强模型,超过Claude 3.5 Sonnet 与 Qwen3-235B,紧随其后的是 OpenAI 的 O4-Mini(Medium 配置)。
● 推理风格更贴近OpenAI o3:社区评测0528新模型“语言自然度”和“对话逻辑”明显改善,不再像早期“天马行空”的叙述风格。
● 深度慢思考:官方未明说,AIBase实测发现模型可持续30–60分钟链式推理,定位为“deep-thought”特性。
● 开放策略延续:保持全量权重MIT 许可 + 免费 API额度依旧,对开发者保持零门槛。
图:升级点对比表格
但是,也会有推理速度慢、超长上下文情况下召回准确率下降等问题,社区评测主要反馈如下表。另外,腾讯科技在实测中发现,DeepSeek-R1-0528依然只能识别图片中的文字,还是没有图像理解的能力。
图:社区反馈的R1-0528版本缺陷
基于这次社区提到的升级点,腾讯科技测试了代码能力、语言自然度、及推理深度(数学和逻辑推理)三大场景,以下为实测结论:
1、 一句话指令生成移动端界面
结论:不设定详细的提示词,仅规定界面需要简洁美观且符合现代审美标准,模型一次性成功创建了设计极简和配色干净的应用界面,顶部自动生成内容分类导航,完美实现所有设定要求,推理用时23s。
提示词:
设计一个适用于移动设备的新闻阅读应用界面,要求界面简洁、美观,符合现代审美趋势。
2、 可交互网站,用户可以自定义条件,并生成对应的效果
结论:模型实现了最终的效果,能根据用户输入的不同的条件输出不同的可视化结果。交互界面设计审美在线,且有光晕和渐变感。推理用时84s。
提示词:
设计一个可以交互的网站,可以输入某人的出生日期(格式为“YYYY-MM-DD”),代码需:
根据出生日期计算一个1到9之间的“终身幸运数字”(方法自定,越神秘越好);
根据幸运数字指定一种幸运颜色;
输出一句幽默又暖心的个性化祝福语(可根据幸运数字和颜色进行匹配)。
要求:
代码实现巧妙且具趣味性;
输出内容丰富,能令人忍俊不禁;
注释清晰易懂。
3、 简单提示词制作一个小游戏
结论:模型一次成功,实测运转流畅,且基本符合提示词要求。推理用时只有13s。
提示词:
请用纯 HTML + CSS + JavaScript(无需任何构建工具)编写一款轻量、有趣、可在手机和桌面浏览器直接运行的小游戏,要求如下:
游戏主题:宇宙太空中的“小行星躲避赛”。玩家控制一艘飞船,左右移动以避开不断下落的小行星。
玩法细节
• 方向控制:键盘 ← → / 触屏左右半屏;
• 小行星随机生成,速度逐渐加快;
• 撞击即 Game Over,显示本局生存时间和历史最高纪录(localStorage)
视觉
• 背景使用 CSS 动态星空(animation);
• 飞船、小行星可用 Canvas 简笔图形或 SVG;
代码结构
• 仅生成 一个 HTML 文件,内部