OpenAI 有解决幻觉的方法,但你真的不会喜欢它
OpenAI 最新研究论文确切地诊断为什么 ChatGPT 和其他大型语言模型可以编造东西——在世界上众所周知人工智能作为“幻觉”。它还揭示了为什么这个问题可能无法解决,至少就消费者而言是这样。
该论文提供了迄今为止最严格的数学解释,解释了为什么这些模型自信地陈述了错误。它表明,这些不仅仅是人工智能目前训练方式的不幸副作用,而且在数学上是不可避免的。
这个问题的部分原因是用于训练人工智能的基础数据中的错误。但通过对人工智能系统如何学习的数学分析,研究人员证明,即使有完美的训练数据,问题仍然存在。
相关:如果人工智能只是一个“文字计算器”,为什么它会让人感觉如此人性化?
语言模型响应查询的方式——根据概率一次预测句子中的一个单词——自然会产生错误。事实上,研究人员表明,生成句子的总错误率至少是同一人工智能在一个简单的是/否问题上的错误率的两倍,因为错误会在多次预测中累积。
换句话说,幻觉率从根本上取决于人工智能系统区分有效和无效反应的能力。由于这种分类问题对于许多知识领域来说本质上是困难的,因此幻觉变得不可避免。
事实证明,模型在训练过程中看到的事实越少,当被问及该事实时,它就越有可能产生幻觉。例如,对于著名人物的生日,研究发现,如果 20% 的人的生日在训练数据中只出现一次,那么基本模型应该至少会出错 20% 的生日查询。
果不其然,当研究人员向最先进的模型询问该论文作者之一亚当·卡莱 (Adam Kalai) 的生日时,DeepSeek-V3 自信地在不同的尝试中提供了三个不同的错误日期:“03-07”、“15-06”和“01-01”。
正确的日期是在秋天,所以这些都不接近。
评估陷阱
更令人不安的是,该论文分析了为什么尽管进行了训练后努力,但幻觉仍然存在(例如在人工智能向公众发布之前对人工智能的反应提供广泛的人类反馈)。
作者研究了十个主要的人工智能基准测试,包括谷歌、OpenAI 使用的基准测试以及对人工智能模型进行排名的顶级排行榜。这表明,九个基准测试使用二进制评分系统,对表达不确定性的人工智能给予零分。
这创造了作者所说的”流行“惩罚诚实的回应。当人工智能系统说“我不知道”时,它会收到与提供完全错误信息相同的分数。
这种评估下的最佳策略变得很清楚:总是猜测。
研究人员用数学证明了这一点。无论特定答案正确的几率如何,当评估使用二元评分时,猜测的预期分数总是超过弃权分数。
打破一切的解决方案
OpenAI 提出的解决方法是让人工智能在发布答案之前考虑自己对答案的信心,并让基准测试在此基础上对其进行评分。
然后可以提示人工智能,例如:“只有当你的信心超过 75% 时才回答,因为错误会被罚 3 分,而正确答案会被罚 1 分。
OpenAI 研究人员的数学框架表明,在适当的置信阈值下,人工智能系统会自然地表达不确定性而不是猜测。所以这将导致更少的幻觉。问题是它会对用户体验产生什么影响。
考虑一下如果 ChatGPT 开始对 30% 的查询说“我不知道”,这会产生什么影响——这是基于该论文对训练数据中事实不确定性的分析的保守估计。习惯于对几乎任何问题获得自信答案的用户可能会很快放弃此类系统。
我在生活的另一个领域也看到了这种问题。我参与了犹他州盐湖城的一个空气质量监测项目。
当系统在恶劣天气条件下或设备校准时标记测量的不确定性时,与显示可靠读数的显示器相比,用户参与度较低,即使这些可靠读数在验证过程中被证明不准确。
计算经济学问题
利用该论文的见解减少幻觉并不难。量化不确定性的既定方法有存在为几十 年.
这些可用于提供可靠的不确定性估计,并指导人工智能做出更明智的选择。
但即使可以克服用户不喜欢这种不确定性的问题,还有一个更大的障碍:计算经济学。
与当今的方法相比,不确定性感知语言模型需要更多的计算,因为它们必须评估多种可能的响应并估计置信度。对于每天处理数百万个查询的系统来说,这意味着运营成本会大幅增加。
更复杂的方法就像主动学习一样,人工智能系统提出澄清问题以减少不确定性,可以提高准确性,但会进一步增加计算需求。
这些方法在芯片设计等专业领域效果很好,在这些领域,错误的答案会花费数百万美元,并且需要进行大量计算。对于用户期望即时响应的消费者应用程序,经济性变得令人望而却步。
对于管理关键业务运营或经济基础设施的人工智能系统来说,计算发生了巨大变化。当人工智能代理处理供应链物流、金融交易或医疗诊断时,幻觉的成本远远超过让模型确定它们是否过于不确定的费用。
在这些领域,该论文提出的解决方案在经济上变得可行——甚至是必要的。不确定的人工智能代理只需要花费更多。
然而,消费者应用仍然主导着人工智能开发的优先事项。用户希望系统能够为任何问题提供自信的答案。评估基准奖励猜测而不是表达不确定性的系统。计算成本有利于快速、过度自信的响应,而不是缓慢、不确定的响应。
每个代币的能源成本下降和芯片架构的进步最终可能会让人工智能决定他们是否有足够的把握回答问题变得更加实惠。但是,与今天的猜测相比,所需的计算量相对较高,无论绝对硬件成本如何,都会保留下来。
简而言之,OpenAI 的论文无意中强调了一个令人不安的事实:推动消费者人工智能发展的商业激励措施仍然与减少幻觉从根本上不一致。
在这些激励措施改变之前,幻觉将持续存在。