心流logo

开源还是闭源:AI发展的关键抉择

开源与闭源之争

在部署大型语言模型时,团队面临一个重要抉择:是否向全世界公开系统的运作机制,包括参数、训练数据和权重输入的细节,还是对这些信息进行保密?这种"开源"与"闭源"的争论,在政府和企业讨论人工智能时经常出现。

企业的战略选择

战略与国际研究中心的达尔格伦(Masao Dalhgren)指出,围绕人工智能安全,特别是开源基础模型的讨论值得特别关注。与GPT-4等闭源模型不同,猎豹(Llama)、蜂鸟(Mistral)或轻问(Qwen)等开源基础模型会公开其底层参数,允许用户进行检查、修改和操作。随着开源模型性能逐渐接近闭源模型,这引发了关于潜在风险和收益的激烈讨论。

信任与合作机制

专家马赫什瓦里(Dinesh Maheshwari)强调,开源本质上是关于信任的建立。这不仅包括开放权重,还包括数据、模型架构和元参数的开放,确保系统可以被复制和审计。深度探索(DeepSeek)虽被称为开源系统,但实际上是半开放的,因为其训练数据并未公开。

商业价值与数据主权

在商业层面,企业客户往往倾向于选择闭源系统,这在企业对企业(B2B)领域可能更具盈利性。但查尔斯·范(Charles Fan)指出,记忆系统的开源对于确保数据所有权至关重要,使用户可以在不同模型间自由迁移其数据。

全球化与本土化的平衡

关于人工智能主权,专家们警告要警惕技术民族主义的陷阱。布莱特查询(BrightQuery)正在开发美国国家安全数据服务,这是首个面向全球的中央化政府数据生态系统。与此同时,希腊等国家也在发展本土化的人工智能系统,以保护其语言和文化特性。

专家普莱恩(Plehn)强调,虽然前沿AI公司可能会保护其模型和权重,但开放数据才是未来发展的关键。随着新模型在全球范围内不断涌现,如何平衡开放与保护将继续成为业界关注的焦点。