实测DeepSeek-R1小版本更新：三大场景梳理模型升级点和缺陷 - AI

Just Quick Just Quality

热门话题

白天

搜索

资讯

实测DeepSeek-R1小版本更新：三大场景梳理模型升级点和缺陷

2025-05-29 / 阅读约10分钟

来源：36kr

依然开源、依然免费

5月28日，DeepSeek在内部社群低调宣布 R1 的“0528”小版本试升级，并同步将新权重上传至Hugging Face与OpenRouter。

图：Hugging Face官方页面，公布了模型权重，但Model Card部分未更新

截至目前，官方还未公布完整技术报告。腾讯科技从Benchmark测试和社区的实测案例整理了本次升级的主要内容：

● 上下文窗口翻倍：API 文档与旧版R1标注 64 K，“0528”在实测中开放到128K。

● 代码生成性能跃升：LiveCodeBench最新榜单显示，R1-0528仅次于 OpenAI o3、o4 mini，超越xAI Grok 3 mini与阿里Qwen 3；生成的网页和交互更美观、可执行性更高。

图：在LiveCodeBench上，DeepSeek-R1-0528 接近 OpenAI 最强模型，超过Claude 3.5 Sonnet 与 Qwen3-235B，紧随其后的是 OpenAI 的 O4-Mini（Medium 配置）。

● 推理风格更贴近OpenAI o3：社区评测0528新模型“语言自然度”和“对话逻辑”明显改善，不再像早期“天马行空”的叙述风格。

● 深度慢思考：官方未明说，AIBase实测发现模型可持续30–60分钟链式推理，定位为“deep-thought”特性。

● 开放策略延续：保持全量权重MIT 许可 + 免费 API额度依旧，对开发者保持零门槛。

图：升级点对比表格

但是，也会有推理速度慢、超长上下文情况下召回准确率下降等问题，社区评测主要反馈如下表。另外，腾讯科技在实测中发现，DeepSeek-R1-0528依然只能识别图片中的文字，还是没有图像理解的能力。

图：社区反馈的R1-0528版本缺陷

基于这次社区提到的升级点，腾讯科技测试了代码能力、语言自然度、及推理深度（数学和逻辑推理）三大场景，以下为实测结论：

代码能力增强，交互效果惊艳

1、一句话指令生成移动端界面

结论：不设定详细的提示词，仅规定界面需要简洁美观且符合现代审美标准，模型一次性成功创建了设计极简和配色干净的应用界面，顶部自动生成内容分类导航，完美实现所有设定要求，推理用时23s。

提示词：

设计一个适用于移动设备的新闻阅读应用界面，要求界面简洁、美观，符合现代审美趋势。

2、可交互网站，用户可以自定义条件，并生成对应的效果

结论：模型实现了最终的效果，能根据用户输入的不同的条件输出不同的可视化结果。交互界面设计审美在线，且有光晕和渐变感。推理用时84s。

提示词：

设计一个可以交互的网站，可以输入某人的出生日期（格式为“YYYY-MM-DD”），代码需：

根据出生日期计算一个1到9之间的“终身幸运数字”（方法自定，越神秘越好）；

根据幸运数字指定一种幸运颜色；

输出一句幽默又暖心的个性化祝福语（可根据幸运数字和颜色进行匹配）。

要求：

代码实现巧妙且具趣味性；

输出内容丰富，能令人忍俊不禁；

注释清晰易懂。

3、简单提示词制作一个小游戏

结论：模型一次成功，实测运转流畅，且基本符合提示词要求。推理用时只有13s。

提示词：

请用纯 HTML + CSS + JavaScript（无需任何构建工具）编写一款轻量、有趣、可在手机和桌面浏览器直接运行的小游戏，要求如下：

游戏主题：宇宙太空中的“小行星躲避赛”。玩家控制一艘飞船，左右移动以避开不断下落的小行星。

玩法细节

• 方向控制：键盘 ← → / 触屏左右半屏；

• 小行星随机生成，速度逐渐加快；

• 撞击即 Game Over，显示本局生存时间和历史最高纪录（localStorage）

视觉

• 背景使用 CSS 动态星空（animation）；

• 飞船、小行星可用 Canvas 简笔图形或 SVG；

代码结构

• 仅生成一个 HTML 文件，内部