DeepSeek近期推出了其R1模型的更新版——DeepSeek-R1-0528,该版本在多个方面进行了显著优化和增强。以下是关于此次更新的主要亮点和改进内容的详细分析:
1. 思维深度与推理能力的提升
- 基座模型与算力投入:DeepSeek-R1-0528仍然基于2024年12月发布的DeepSeek V3 Base模型,但在后续训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。
- 基准测评表现:更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了国内模型中的领先成绩,并且整体表现接近国际顶尖模型,如OpenAI的o3和Google的Gemini-2.5-Pro。
- 复杂推理任务表现:在AIME 2025测试中,新版模型的准确率由旧版的70%提升至87.5%。这一进步得益于模型在推理过程中的思维深度增强:在AIME 2025测试集上,旧版模型平均每题使用12K tokens,而新版模型平均每题使用23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。
2. 幻觉问题的优化
- 幻觉率降低:新版DeepSeek R1针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%~50%左右,能够有效地提供更为准确、可靠的结果。
3. 创意写作能力的增强
- 文体优化:在旧版R1的基础上,更新后的R1模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。
4. 工具调用能力的改进
- 支持工具调用:DeepSeek-R1-0528支持工具调用(不支持在思考过程中进行工具调用)。当前模型在Tau-Bench测评中的成绩为airline 53.5% / retail 63.9%,与OpenAI o1-high相当,但与o3-High以及Claude 4 Sonnet仍有差距。
5. 编程能力的大幅提升
- 代码生成能力:新版R1在编程能力上有了显著提升。在Extended NYT Connections基准测试上,新版本的得分从38.6提升至49.8。许多网友认为,更新后的DeepSeek-R1-0528在代码生成等编程领域的实力已经进入第一梯队。
- 前端代码生成:在前端代码生成方面,新版R1能够快速生成高质量的代码。例如,用户只需提供一句“生成一个苹果官网风格的前端网页”,模型在14秒内就生成了462行代码,并且效果与用户设想非常相近。
- 动态动画与物理模拟:新版R1在生成复杂动态动画和物理模拟方面表现出色。例如,在粒子效果的表现上,新版R1能够生成涉及复杂动态动画和物理模拟的内容,如物体运动、碰撞、光影变化等。
6. API 更新
- API 调用方式不变:新版R1的API调用方式保持不变,用户可以通过官方网站、APP或小程序进入对话界面后,开启“深度思考”功能即可体验最新版本。
- max_tokens 参数调整:新版R1 API中对max_tokens参数的含义进行了调整,现在max_tokens用于限制模型单次输出的总长度(包括思考过程),默认为32K,最大为64K。用户需要及时调整max_tokens参数以防输出被提前截断。
7. 开源与商业用途
- 开源策略:DeepSeek延续了之前发布即开源的策略,R1-0528已经正式开源,并采用宽松的MIT许可证,意味着它可用于商业用途。
8. 用户实测反馈
- 推理能力提升:用户实测显示,新版R1在处理复杂问题时,逻辑分析能力和推理过程的细致程度都有了显著改进,输出的答案不仅更加准确,还在深度和广度上都有了显著提升。
- 编程能力对比:在LiveCodeBench上,新版R1的表现几乎与OpenAI o3-high相当,甚至在某些任务上超越了Claude 4等国际顶尖模型。
总结
DeepSeek-R1-0528的更新不仅在推理能力、幻觉问题优化、创意写作和工具调用等方面进行了显著提升,还在编程能力上达到了国际顶尖水平。此次更新延续了DeepSeek“小版本升级”的策略,通过持续的小步快跑,不断优化模型性能,展现了开源模型在竞争中的强大潜力。