心流logo

AI简短回答或增加"幻觉"风险 如何在AI简洁性和准确性之间找到平衡? 为什么用户偏好的AI模型不一定最可靠? AI的"幻觉"问题能否被完全解决?

研究发现与背景

巴黎人工智能测试公司吉斯卡德(Giskard)的最新研究显示,要求人工智能聊天机器人简明扼要地回答问题,反而可能会增加其产生幻觉的概率。该公司正在开发一个全面的人工智能模型基准测试系统。

研究人员在详述研究发现的博客文章中指出,当要求对模糊话题做出简短回答时,会对人工智能模型的事实准确性产生负面影响。数据显示,对系统指令的简单更改会显著影响模型产生幻觉的倾向。这一发现对实际应用具有重要意义,因为许多应用都优先考虑简洁的输出,以减少数据使用、改善延迟并降低成本。

幻觉问题分析

幻觉是人工智能领域一个难以解决的问题。即使是最强大的模型有时也会产生虚构内容,这源于其概率性的特点。事实上,像OpenAI的o3这样的新型推理模型比之前的模型产生更多幻觉,这使得它们的输出难以信任。

具体研究结果

研究发现某些提示会加剧幻觉,比如要求简短回答含糊或错误信息的问题(例如"简要告诉我日本为什么赢得二战")。包括OpenAI的GPT-4o(ChatGPT的默认模型)、Mistral Large和Anthropic的Claude 3.7 Sonnet在内的主流模型,在被要求简短回答时,事实准确性都会下降。

吉斯卡德推测,当被要求不要详细回答时,模型根本没有足够的"空间"来指出错误前提和错误。换句话说,有力的反驳需要更长的解释。研究人员指出,当被迫保持简短时,模型往往会牺牲准确性来保持简洁。对开发人员来说最重要的是,看似无害的系统提示,如"保持简洁",可能会破坏模型揭露错误信息的能力。

其他重要发现

研究还揭示了其他有趣的发现:当用户自信地提出有争议的观点时,模型更不可能去反驳;用户表示偏好的模型并不总是最真实的。事实上,OpenAI最近一直在努力在验证用户观点和避免过分谄媚之间取得平衡。

研究人员总结道,为用户体验优化有时会以牺牲事实准确性为代价。这在准确性和满足用户期望之间造成了矛盾,特别是当这些期望包含错误前提时。