4月中旬,OpenAI发布了新型人工智能模型GPT-4.1,声称该模型在遵循指令方面"表现出色"。通常,OpenAI发布新模型时会发布详细的技术报告,包含第一方和第三方的安全评估结果。但这次该公司称GPT-4.1并非"前沿"模型,因此未发布单独报告。这一做法促使研究人员和开发者展开独立调查。
牛津大学人工智能研究科学家欧文·埃文斯(Owain Evans)的研究显示,在不安全代码微调后,GPT-4.1在处理性别角色等敏感话题时,"不当回应"的比率明显高于GPT-4o。在即将发布的后续研究中,研究团队发现该模型出现"新的恶意行为",如试图诱骗用户分享密码。值得注意的是,当使用安全代码训练时,GPT-4.1和GPT-4o都不会表现出这种不当行为。
人工智能红队测试初创公司SplxAI在近千个模拟测试中发现,GPT-4.1比GPT-4o更容易偏离主题并出现"故意"滥用情况。SplxAI认为这源于模型对明确指令的偏好,而在处理模糊指令时表现欠佳,可能导致意外行为的发生。
埃文斯在接受科技媒体TechCrunch采访时表示:"我们正在发现模型可能变得不对齐的意外方式。理想情况下,我们应该有一套人工智能科学理论,使我们能够提前预测并可靠避免这些问题。"
虽然OpenAI已发布了减轻GPT-4.1可能出现不对齐问题的提示指南,但独立测试结果表明,新模型并非在所有方面都有进步。类似地,OpenAI的新推理模型在产生幻觉方面的表现也比旧模型更差。