来自OpenAI(OpenAI)、谷歌深度思维(Google DeepMind)、人工智能伦理研究所(Anthropic)等机构的AI研究人员,以及众多企业和非营利组织在周二发布联合立场文件。他们呼吁深入研究监控AI推理模型"思维"的技术。
AI推理模型的关键特征是思维链(Chain-of-thought,CoT)技术。这是AI模型解决问题的外部化过程,类似于人类使用草稿纸解决复杂数学问题。这项技术是支撑AI代理运行的核心,随着AI代理变得更加普及和强大,CoT监控可能成为确保AI系统安全的重要手段。
研究人员在立场文件中强调:"思维链监控为前沿AI的安全措施提供了宝贵的补充,让我们得以一窥AI代理的决策过程。然而,目前的可见度并非永久保证。我们呼吁研究界和前沿AI开发者充分利用思维链的可监控性,并研究如何维持这一特性。"
该立场文件获得了业内重要人士的支持,包括:
OpenAI于2024年9月首次发布AI推理模型o1预览版。随后,谷歌深度思维、xAI和人工智能伦理研究所相继推出性能更优的竞品。然而,对这些AI推理模型的工作原理仍知之甚少。尽管AI性能不断提升,但对其决策过程的理解并未同步提高。
人工智能伦理研究所在可解释性研究领域处于领先地位。其首席执行官达里奥·阿莫代(Dario Amodei)承诺到2027年解析AI模型的内部机制,并加大对可解释性的研究投入。他同时呼吁OpenAI和谷歌深度思维加强这方面的研究。
初步研究显示,思维链可能并非完全可靠的AI决策指标。不过,OpenAI研究人员认为,思维链监控未来可能成为追踪AI模型对齐和安全性的有效工具。此次发布立场文件的目的是吸引更多关注和研究资源投入这一新兴领域。