心流logo

DeepSeek新模型创开源领域新高

模型性能突破

深度求索(DeepSeek)于3月25日宣布对其通用人工智能模型DeepSeek-V3进行更新。最新版本"DeepSeek V3-0324"在所有非推理模型中的基准测试排名最高。

人工智能模型评测平台Artificial Analysis(人工分析)表示:"这是首个在非推理模型中领先的开源模型,标志着开源领域的重要里程碑。"该模型在平台的"智能指数"评测中获得了所有非推理模型中的最高分。

在GPQA Diamond基准测试中,DeepSeek V3-0324获得66%的得分,超过了GPT-4o(54%)和Gemini 2.0 Pro实验版(62%),与Claude 3.7 Sonnet(66%)持平。该基准测试主要评估AI模型解答研究生水平科学问题的能力。

虽然该模型在多个基准测试中超越了其他非推理模型,但仍落后于DeepSeek-R1、OpenAI的o1、o3-mini等推理模型。值得注意的是,推理模型需要额外时间进行逐步思考来做出响应,而非推理模型优先考虑速度,能够立即作出回应。

未来发展规划

社交平台X上传言,DeepSeek V3-0324可能是即将推出的DeepSeek-R2推理模型的基础模型。据路透社报道,公司计划提前发布R2版本,原计划5月初发布的时间表可能会提前。

Artificial Analysis评价称:"这个版本的表现比R1更令人印象深刻,预示着R2将带来另一个重大突破。"新模型预计将提供更优质的代码生成能力,并支持英语以外语言的推理功能。

商业价值凸显

DeepSeek不仅在性能上表现出色,在成本效益方面也具有优势。公司宣布在每日16:30至次日00:30的非高峰时段对其API平台提供折扣。根据其GitHub发布的信息,尽管实施折扣定价,其推理服务的理论日利润率仍达545%。

几个月前,DeepSeek凭借最少GPU训练量达到顶尖性能的成就,震动了AI行业,并对英伟达(NVIDIA)的市值产生显著影响。

在中国AI领域,阿里巴巴(Alibaba)、百度(Baidu)、腾讯(Tencent)和字节跳动(ByteDance)等科技巨头都在多个领域持续发布AI模型,展开激烈竞争。