DeepSeek推出R1模型更新版

DeepSeek近期推出了其R1模型的更新版——DeepSeek-R1-0528，该版本在多个方面进行了显著优化和增强。以下是关于此次更新的主要亮点和改进内容的详细分析：

1. 思维深度与推理能力的提升

基座模型与算力投入：DeepSeek-R1-0528仍然基于2024年12月发布的DeepSeek V3 Base模型，但在后续训练过程中投入了更多算力，显著提升了模型的思维深度与推理能力。
基准测评表现：更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了国内模型中的领先成绩，并且整体表现接近国际顶尖模型，如OpenAI的o3和Google的Gemini-2.5-Pro。
复杂推理任务表现：在AIME 2025测试中，新版模型的准确率由旧版的70%提升至87.5%。这一进步得益于模型在推理过程中的思维深度增强：在AIME 2025测试集上，旧版模型平均每题使用12K tokens，而新版模型平均每题使用23K tokens，表明其在解题过程中进行了更为详尽和深入的思考。

2. 幻觉问题的优化

幻觉率降低：新版DeepSeek R1针对“幻觉”问题进行了优化。与旧版相比，更新后的模型在改写润色、总结摘要、阅读理解等场景中，幻觉率降低了45%～50%左右，能够有效地提供更为准确、可靠的结果。

3. 创意写作能力的增强

文体优化：在旧版R1的基础上，更新后的R1模型针对议论文、小说、散文等文体进行了进一步优化，能够输出篇幅更长、结构内容更完整的长篇作品，同时呈现出更加贴近人类偏好的写作风格。

4. 工具调用能力的改进

支持工具调用：DeepSeek-R1-0528支持工具调用（不支持在思考过程中进行工具调用）。当前模型在Tau-Bench测评中的成绩为airline 53.5% / retail 63.9%，与OpenAI o1-high相当，但与o3-High以及Claude 4 Sonnet仍有差距。

5. 编程能力的大幅提升

代码生成能力：新版R1在编程能力上有了显著提升。在Extended NYT Connections基准测试上，新版本的得分从38.6提升至49.8。许多网友认为，更新后的DeepSeek-R1-0528在代码生成等编程领域的实力已经进入第一梯队。
前端代码生成：在前端代码生成方面，新版R1能够快速生成高质量的代码。例如，用户只需提供一句“生成一个苹果官网风格的前端网页”，模型在14秒内就生成了462行代码，并且效果与用户设想非常相近。
动态动画与物理模拟：新版R1在生成复杂动态动画和物理模拟方面表现出色。例如，在粒子效果的表现上，新版R1能够生成涉及复杂动态动画和物理模拟的内容，如物体运动、碰撞、光影变化等。

6. API 更新

API 调用方式不变：新版R1的API调用方式保持不变，用户可以通过官方网站、APP或小程序进入对话界面后，开启“深度思考”功能即可体验最新版本。
max_tokens 参数调整：新版R1 API中对max_tokens参数的含义进行了调整，现在max_tokens用于限制模型单次输出的总长度（包括思考过程），默认为32K，最大为64K。用户需要及时调整max_tokens参数以防输出被提前截断。

7. 开源与商业用途

开源策略：DeepSeek延续了之前发布即开源的策略，R1-0528已经正式开源，并采用宽松的MIT许可证，意味着它可用于商业用途。

8. 用户实测反馈

推理能力提升：用户实测显示，新版R1在处理复杂问题时，逻辑分析能力和推理过程的细致程度都有了显著改进，输出的答案不仅更加准确，还在深度和广度上都有了显著提升。
编程能力对比：在LiveCodeBench上，新版R1的表现几乎与OpenAI o3-high相当，甚至在某些任务上超越了Claude 4等国际顶尖模型。

总结

DeepSeek-R1-0528的更新不仅在推理能力、幻觉问题优化、创意写作和工具调用等方面进行了显著提升，还在编程能力上达到了国际顶尖水平。此次更新延续了DeepSeek“小版本升级”的策略，通过持续的小步快跑，不断优化模型性能，展现了开源模型在竞争中的强大潜力。