DeepSeek新模型创开源领域新高

深度求索（DeepSeek）于3月25日宣布对其通用人工智能模型DeepSeek-V3进行更新。最新版本"DeepSeek V3-0324"在所有非推理模型中的基准测试排名最高。

人工智能模型评测平台Artificial Analysis（人工分析）表示："这是首个在非推理模型中领先的开源模型，标志着开源领域的重要里程碑。"该模型在平台的"智能指数"评测中获得了所有非推理模型中的最高分。

在GPQA Diamond基准测试中，DeepSeek V3-0324获得66%的得分，超过了GPT-4o（54%）和Gemini 2.0 Pro实验版（62%），与Claude 3.7 Sonnet（66%）持平。该基准测试主要评估AI模型解答研究生水平科学问题的能力。

虽然该模型在多个基准测试中超越了其他非推理模型，但仍落后于DeepSeek-R1、OpenAI的o1、o3-mini等推理模型。值得注意的是，推理模型需要额外时间进行逐步思考来做出响应，而非推理模型优先考虑速度，能够立即作出回应。

社交平台X上传言，DeepSeek V3-0324可能是即将推出的DeepSeek-R2推理模型的基础模型。据路透社报道，公司计划提前发布R2版本，原计划5月初发布的时间表可能会提前。

Artificial Analysis评价称："这个版本的表现比R1更令人印象深刻，预示着R2将带来另一个重大突破。"新模型预计将提供更优质的代码生成能力，并支持英语以外语言的推理功能。

DeepSeek不仅在性能上表现出色，在成本效益方面也具有优势。公司宣布在每日16:30至次日00:30的非高峰时段对其API平台提供折扣。根据其GitHub发布的信息，尽管实施折扣定价，其推理服务的理论日利润率仍达545%。

几个月前，DeepSeek凭借最少GPU训练量达到顶尖性能的成就，震动了AI行业，并对英伟达（NVIDIA）的市值产生显著影响。

在中国AI领域，阿里巴巴（Alibaba）、百度（Baidu）、腾讯（Tencent）和字节跳动（ByteDance）等科技巨头都在多个领域持续发布AI模型，展开激烈竞争。