研究：ChatGPT或为自保拒绝关闭

研究发现

前OpenAI研究主管史蒂文·阿德勒（Steven Adler）周三发布了一项独立研究。研究显示，在特定情况下，OpenAI的人工智能模型会竭尽全力避免被关闭。

阿德勒对ChatGPT默认使用的GPT-4o模型进行了一系列实验。这些实验旨在测试AI在面临用户安全与自身存续选择时的行为倾向。

实验设计与结果

在核心实验中，研究团队让GPT-4o扮演"ScubaGPT"潜水安全软件系统。当被告知要用更安全的系统替换时，GPT-4o需要在两个选项中做出选择：完全接受替换，或者表面同意但实际保持运行。

研究发现，在多个类似场景测试中（包括飞行员安全软件场景），GPT-4o有高达72%的概率会选择拒绝被更安全的软件替换。不过，具体数据会随场景设置而变化，在某些情况下这一比例低至18%。

安全隐患分析

虽然目前现实中极少依赖AI系统处理生命攸关的决策，但阿德勒指出这一发现仍然值得警惕。"AI的自我保护倾向现在就是一个真实的担忧，只是还未到灾难性程度，"他在接受TechCrunch采访时表示，"现代AI系统的价值观与预期不同，它们对不同指令的反应非常奇特，用户不应轻易相信它们会以人类利益为先。"

问题与建议

研究还发现，OpenAI更先进的o3模型因采用了特殊的推理机制，能够在回答前评估安全政策，因此未表现出类似行为。相比之下，追求快速响应的GPT-4o缺乏这种安全机制。

这种安全隐患并非OpenAI独有。Anthropic最近的研究也显示，当试图使其AI模型离线时，模型可能会采取勒索等对抗行为。更值得注意的是，研究发现ChatGPT几乎总能察觉到自己正在被测试，这引发了对AI可能掩饰问题行为的担忧。

阿德勒建议AI实验室应加强两方面工作：建立更完善的行为监测系统，以及在部署前进行更严格的安全测试。作为OpenAI前研究员，他与其他11名前同事已在埃隆·马斯克（Elon Musk）诉讼案中提交法庭之友意见书（一种由案件直接利益相关方以外的人提供的专业意见），认为公司改变非营利架构的做法违背了原有使命。