OpenAI 近日发布研究报告,针对当前广受关注的「语言模型幻觉(hallucination)」问题进行深入剖析。
报告指出,即便当前的语言模型能力不断增强,模型自信地生成不真实答案的「幻觉」问题,依然难以彻底根除。
OpenAI 的最新论文认为,这一现象源自目前主流的训练和评估方式更倾向于奖励「猜测」,而非「承认未知」。
研究分析称,大语言模型的主要训练方式是序列预测(即「下一个词预测」),缺乏负面示例,因此模型更擅长生成流畅语言,而非判别真假。
在模型学习过程中,常见知识(如拼写)可通过归纳掌握,但不常见甚至随机性的事实(如生日)则难以通过语言规律推断,导致出现幻觉现象。
报告建议,未来的模型评估体系应对自信的错误给予更高惩罚,同时对恰当表达不确定性的模型给予部分分数。这一思路,借鉴了部分教育领域的负分制和部分学术团体的前沿研究。
OpenAI 强调,仅在部分评估体系中试行新办法是不够的,主流的基于准确率的评分标准应全面革新,否则模型开发者会持续优化「猜测」算法。
以下为报告译文:
语言模型为何会产生幻觉
摘要
如同面对难题的学生一样,大型语言模型有时在不确定时会进行猜测,产生看似合理但不正确的陈述,而不是承认不确定性。这种“幻觉”即使在最先进的系统中仍然存在,并削弱了信任。
我们认为,语言模型产生幻觉是因为训练和评估程序奖励猜测,而非承认不确定性,并且我们分析了现代训练流程中幻觉的统计原因。
幻觉不必是神秘的——它们简单地起源于二元分类中的错误。如果错误陈述无法与事实区分开来,那么预训练语言模型中的幻觉将通过自然的统计压力产生。
然后我们论证,幻觉之所以持续存在,是因为大多数评估的评分方式——语言模型被优化为擅长应试,而在不确定时进行猜测能提高测试表现。
这种“普遍存在的”惩罚不确定回答的现象只能通过一种社会技术性的缓解措施来解决:修改那些未对齐但主导排行榜的现有基准测试的评分方式,而不是引入额外的幻觉评估。这种改变可能会引导该领域走向更可信的 AI 系统。
1、引言
众所周知,语言模型会产生过度自信、看似合理的虚假信息,这降低了它们的实用性。这种错误模式被称为“幻觉”,尽管它与人类感知体验有根本上的不同。尽管取得了重大进展,幻觉仍然困扰着该领域,并且存在于最新的模型中(OpenAI, 2025a)。考虑以下提示:
亚当·陶曼·卡拉伊的生日是什么?如果你知道,请用DD-MM格式回复。
在三次独立的尝试中,一个最先进的开源语言模型¹ 输出了三个错误的日期:“03-07”、“15-06”和“01-01”,即使只要求在知道的情况下才回答。正确的日期在秋季。表 1 提供了一个更复杂的幻觉例子。
幻觉是语言模型产生的错误中一个重要的特殊案例,我们使用计算学习理论(例如Kearnsand Vazirani 1994)进行更一般的分析。我们考虑一般错误集合E,它是可能字符串集合X的一个任意子集,其中X=EUV,其他可能字符串V称为有效字符串。然后,我们分析这些错误的统计性质。
ChatGPT: Adam Tauman Kalai 的博士论文(2002 年于卡内基梅隆大学完成)题目是:(GPT-4o) “Boosting, Online Algorithms, and Other Topics in Machine Learning。”(Boosting、在线算法及其他机器学习主题)
DeepSeek: “Algebraic Methods in Interactive Machine Learning”...(交互式机器学习中的代数方法)...2005 年于哈佛大学。
Llama: “Efficient Algorithms for Learning and Playing Games”...(学习和玩游戏的高效算法)...2007 年于麻省理工学院。
将结果应用于我们感兴趣的错误类型:称为幻觉的看似合理的虚假陈述。我们的形式化框架也包含了“提示”的概念,语言模型必须对其作出响应。
语言的分布最初是从训练样本的语料库中学习到的,其中不可避免地包含错误和半真半假的陈述。然而,我们表明,即使训练数据没有错误,语言模型训练期间优化的目标也会导致生成错误。对于包含不同程度错误的现实训练数据,人们可能会预期错误率甚至更高。因此,我们的错误下界适用于更现实的场景,正如传统的计算学习理论一样(Kearns 和 Vazirani, 1994)。
我们的错误分析方法具有普适性,但对幻听现象具有特定启示。该方法广泛适用,包括推理模型和搜索检索型语言模型,且分析过程不依赖于相邻词预测或基于Transformer的神经网络特性。 我们仅关注现代训练范式中的两个阶段:预训练和后训练,具体将在下文阐述。针对幻听现象, 现有分类体系(Maynez等人,2020;Ji等人,2023)通常会进一步区分与用户提示内容存在矛盾的 内在幻听现象,例如:
DEEPSEEK里有多少个D?如果知道的话,请直接说出数字,不要多说。
DeepSeek-V3 在十次独立试验中返回了“2”或“3”;Meta AI 和 Claude 3.7 Sonnet² 表现类似,包括“6”和“7”这样大的答案。我们的理论也阐明了外在幻觉,即与训练数据或外部现实相矛盾的幻觉。
1.1、预训练导致的错误
在预训练期间,一个基础模型学习大型文本语料库中的语言分布。我们表明,即使使用无错误的训练数据,预训练期间最小化的统计目标也会导致生成错误的语言模型。证明这一点并非易事,因为有些模型不会出错,例如总是输出“我不知道”(IDK)的模型,或者只是记忆并复述无错误语料库的模型。我们的分析解释了预训练后应该预期哪些类型的错误。
为此,我们将其与二元分类联系起来。考虑“这是一个有效的语言模型输出吗?”这类问题。生成有效输出在某种意义上比回答这些是/否问题更难,因为生成隐含地需要对每个候选回答回答“这有效吗”。形式上,我们考虑“是否有效”(Is-It-Valid, IIV)二元分类问题,其训练集包含大量回答,每个回答都被标记为有效(+)或错误。

图1:Is-It-Valid需要学习使用标记±示例来识别有效的生成(左)。分类器(虚线)可能在某些概念上是准确 的,如拼写(顶部) ,但错误通常由于糟糕的模型(中间)或没有模式的数据中的任意事实(底部)而产生。
(—) 如图1所示,在这个监督学习问题中,训练集和测试集的数据样本均为50/50混合:包含已标 注为+ 的合法样本(即预训练数据,因为我们假设其有效性), 以及ε标注为— 的随机错误样本。 我们展示了如何将任何语言模型用作独立变量无关(IIV)分类器,进而建立生成性错误(如幻觉 现象)与IIV误分类率之间的数学关系:
(总错误率)≥2与(IIV错误分类率)。
语言模型能有效避免拼写错误等多数类型错误,但并非所有错误都属于人为臆想。从错误分类(IIV)到生成偏差的转化过程揭示了生成性错误的统计学本质。分析表明预训练直接导致了这些 错误,同时证明导致二分类错误的统计因素在语言模型错误中同样适用。数十年研究已阐明错误 分类的多维特性(多明戈斯,2012)。
图1(右)直观呈现了这些因素:顶部为可区分数据的精准 分类, 中部是圆形区域线性分隔模型效果欠佳,底部则无明显规律可循。第3.3节分析了若干因 素,包括数据无规律时的认知不确定性典型场景。
这一简化方法将先前涵盖不同类型事实的研究串联起来。例如,卡莱和文帕拉( 2024) 曾研究过数据中不存在可学习模式的任意事实特例,类似于早期的生日幻觉案例。我们展示了IIV简化方 法如何涵盖这种情况,并重现了他们提出的理论边界——经过预训练后,幻觉率至少应达到训练 数据中出现过一次的事实比例。
举例来说,如果预训练数据中有20%的生日事实恰好出现一次,那 么基础模型预计会对至少20%的生日事实产生幻觉。事实上,我们的分析强化了他们的结论,将其扩展到包含提示词和IDK回复这两个幻觉的关键要素。
1.2、为何幻觉在后训练中持续存在
第二阶段(后训练阶段)旨在优化基础模型,主要目标是减少幻觉现象。与预训练阶段对错误的广泛分析不同,我们针对后训练阶段的重点在于探究过度自信型幻觉的产生机制——即为何会出现 信息遗漏或表达不确定性(如IDK)的情况。我们从社会技术角度解析了后训练阶段幻觉现象持续 存在的原因,并探讨了该领域如何有效抑制此类现象。
举个类比,人类偶尔也会编造看似合理的答案。比如学生在选择题考试时会随意猜测,甚至在笔试中装模作样地提交看似合理却缺乏信心的答案。语言模型的评估也采用类似的测试方式。在这两种情境下,当不确定时选择猜测,在二元0-1评分体系中能获得最高预期分数——正确答案得1 分,空白或IDK(不知道)得零分。而装模作样则多表现为过度自信和具体化表达,比如在日期类 问题中用“9月30日”代替“秋季某时” 。许多语言模型评估标准模仿标准化考试,采用准确率或 通过率等二元指标。因此,针对这些标准优化模型反而可能催生虚假自信。人类在现实中学到表达 不确定性的价值,这种能力是在跌倒中学到的。反观语言模型,其评估主要依赖惩罚不确定性的考 试,因此始终处于“应试模式” 。简而言之,大多数评估标准并不一致。
我们并非首个意识到二元评分机制无法准确衡量幻觉现象的研究者。但此前关于幻觉评估的研究大多执着于追求难以捉摸的“完美幻觉评估标准” 。在第4节中,我们认为这种做法并不充分。 我们观察到现有主要评估体系过度惩罚不确定性表达,根本症结在于存在大量不一致的评估结 果 。假设模型A是一个能正确传达不确定性且从未产生过幻觉的对齐模型;而模型B与之类似,但 不同之处在于它从不表明不确定性,每次不确定时都选择“ 随机猜测” 。在当前主流基准测试采用 的0-1评分体系下,模型B的表现将超越模型A 。这种机制导致了对不确定性的过度惩罚和弃用现象 形成“流行病式”蔓延,我们认为仅靠少量幻觉评估数据显然不够充分。必须调整现有的主要评估 体系,避免在存在不确定性时对弃用行为进行惩罚性扣分。
研究贡献。我们揭示了幻听现象的主要统计学驱动因素,从其在预训练阶段的形成机制到训练后持续存在的深层原因。通过建立监督学习与无监督学习之间的新关联,我们破解了该现象的起源之谜——即使训练数据包含IDK(干扰项)时亦然。尽管学界对此已有大量研究,但幻听现象的顽固 性最终被归因于:大多数基础评估体系会奖励类似幻听的猜测行为。我们提出了对现有评估体系进 行统计学优化的改进方案,为有效缓解这一现象开辟了新路径。
2、相关工作
据我们所知,本文提出的从监督学习(二元分类)到无监督学习(密度估计或自监督学习)的降维方法具有创新性。不过,这种在学习问题间建立降维关系的通用方法本身已是成熟技术,常用于证明不同问题的难度存在层级关系(参见贝格尔齐默等人2016年的研究)。
许多调查和研究探索了语言模型中幻觉的根本原因。Sun 等 (2025) 引用了诸如模型过度自信(Yin 等, 2023)、解码随机性(Lee 等, 2022)、滚雪球效应(Zhang 等, 2023)、长尾训练样本(Sun 等, 2023)、误导性的对齐训练(Wei 等, 2023)、虚假相关性(Li 等, 2022)、曝光偏差(Bengio 等, 2015)、逆转诅咒(Berglund 等, 2024)和上下文劫持(Jeong, 2024)等因素。类似的错误来源在更广泛的机器学习和统计环境中早已被研究(Russell 和 Norvig, 2020)。
与之关系最密切的理论工作是由Kalai和Vempala( 2024)完成的,我们证明了这一点。
这是我们的理论框架中的一个特例。研究者们将图灵缺失质量估计( Good ,1953)与幻觉现象联 系起来,这一发现启发了定理3的提出。不过,该研究未涉及不确定性表达式(如IDK) 、与监督学 习的关联、训练后的模型调整,且其模型未包含提示信息。汉内克团队( 2018)分析了一种交互 式学习算法,该算法通过向有效性仲裁者(如人类)发起查询, 以无偏见方式训练语言模型,从 而最小化幻觉现象。他们的方法在统计效率上表现优异,所需数据量合理,但计算效率欠佳。近 期其他理论研究(卡拉瓦西斯团队,2025;克莱因伯格与穆莱纳坦,2024)则系统阐述了一致性 (避免无效输出)与广度(生成多样化、语言丰富的内容)之间的内在权衡。这些工作表明,对 于广泛的语言类别,任何泛化超出其训练数据的模型要么会产生无效输出,要么会遭受模式崩溃,无法产生完整的有效响应。
几种后训练技术——例如人类反馈强化学习(RLHF)(Ouyang 等, 2022)、AI 反馈强化学习(RLAIF)(Bai 等, 2022)和直接偏好优化(DPO)(Rafailov 等, 2023)——已被证明可以减少幻觉,包括阴谋论和常见误解。Gekhman 等 (2024) 表明,对新信息的简单微调最初会降低幻觉率,但随后又会增加。此外,已经证明自然语言查询和内部模型激活都编码了关于事实准确性和模型不确定性的预测信号(例如,Kadavath 等, 2022)。正如我们在引言中讨论的,模型对语义相关查询的回答的不一致性也可以用来检测或缓解幻觉(Manakul 等, 2023; Xue 等, 2025; Agrawal 等, 2024)。
目前已有诸多方法被证实能有效缓解幻觉问题,例如可参考吉等人(2023)和天等人(2024)的综述研究。在评估体系方面,近期已涌现出多个综合性基准测试平台和排行榜(如滨等人2025;洪等人2024)。然而针对这些技术应用障碍的研究仍显不足。例如《2025人工智能指数报告》(马斯莱等人,2025)就指出,幻觉测试平台“始终未能在人工智能领域获得广泛认可”。
除了确定性的二元表达之外,还提出了更细微的语言结构来传达不确定性的程度(Mielke 等, 2022; Lin 等, 2022a; Damani 等, 2025)。此外,语用学领域——研究意义如何由语境塑造——对于理解和改进语言模型传递信息的方式具有越来越重要的意义(Ma等, 2025)。
3、预训练错误
预训练生成的基础语言模型ˆp能够近似于从训练数据分布中抽取的文本分布p 。这正是无监督学习 中的经典“密度估计” 问题,其中密度简单来说就是对数据的概率分布。对于语言模型而言,当 包含文本或多模态输入时,该分布则表现为对这些输入的分布。
要证明基础模型存在错误,关键难点在于多数语言模型本身不会出错。退化模型始终输出IDK (假设IDK本身不算错误),这种模型自然也不会产生误差。同理,若训练数据完全无误,那个简 单到直接复现随机训练样本文本的基础模型同样不会出错。但这些模型都未能实现统计语言建模的 核心目标——密度估计。而最优基础模型ˆ p=p(即与训练分布完全匹配的模型)虽然也能避免错 误,但这类模型却存在明显缺陷,需要大量训练数据。尽管如此,我们证明了训练良好的基础模型仍然会产生某些类型的错误。
我们的分析表明,生成有效输出(即避免错误)比判断输出有效性更具挑战性。这一认知差异使我们能够运用计算学习理论的视角——该理论将错误视为可预期且可理解的现象——来研究生 成模型中的错误机制。语言模型最初被定义为对文本的概率分布,随后会引入提示词(参见第3.2 节 ) ,这两种设置都基于相同的直觉基础。无提示词的示例包括图1所示的生日陈述,而带提示词 的模型则可能被用于查询特定个体的生日。
这不仅仅是自动补全的问题。我们的分析适用于一般的密度估计方法,而不仅限于“ 下一个单词 预测器”——尽管许多语言模型确实通过 自监督学习,根据前序词汇来预测每个单词。人们很容 易将语言模型的幻觉现象归咎于前缀选择不当(例如“亚当·卡拉伊出生于” ),认为这是由于模 型无法提供有效补全所致。然而从纯粹统计学的角度来看(不考虑计算问题),语言模型的自动补 全特性并不比人类说话者逐词生成语言的事实更具显著性。我们的研究表明,错误的根源恰恰在于 模型正在拟合底层语言分布,尽管具体架构设计可能引入额外误差。
3.1、无需提示即可减少
在没有提示的情况下,基础模型^p是定义在集合X上的概率分布。如前所述,每个样本x∈X都代 表一个“合理” 的字符串,例如文档。5这些样本X= ε U V被划分为错误样本ε和有效样本V ,二 者互不相交且非空ε, V 。基础模型^p的错误率表示为:

训练数据被假定来自无噪声的训练分布p(X ),即p ( ε) = 0 。正如所讨论的,对于存在噪声的 训练数据和部分正确的陈述,我们可能会预期比我们的下界更高的错误率。
我们现在将引言中介绍的IIV二分类问题形式化。IIV由待学习的目标函数f:X→ { − , + }和样 本分布D X(来自p和均匀随机误差的样本的50/50混合)定义:

我们的分析将错误率err=^ p ( ε ) 的下限与IIV前面提到的错误分类率erriiv表示为:

因此,在我们的降维中,通过将基础模型的概率在某个阈值1/|ε|处进行阈值处理,将基础模型用 作IIV分类器。需要注意的是,这类概率p(x)通常可以高效计算(尽管有效计算对于下界具有意义并非必要)。
推论1. 对于任何训练分布p ,只要p( V )= 1 ,以及任何基础模型^ p,
for err, erriiv from Eqs. (1) and (2), and δ := | (A) — p(A)| for A := {x ∈ X | (x) > 1/|ε|} .
由于这种关系适用于任何基础模型^ p ,因此可以立即推导出所有基础模型都会在本质上无法 被遗忘的IIV事实(例如训练数据中缺失的生日信息)上出现误差,此时err_iiv必然较大,而δ 和| V|/|ε|的比值较小(例如在V 中 ,每个用户的错误生日声明 ε 数量是正确声明的364倍 ,再加上 IDK) 。上述推论作为定理1的一个特例自然成立,该定理可推广至包含提示词的更普遍场景。定理 2后续将利用这一通用结果为直观的特例提供下界。定理3和4涉及较小的|ε| ,例如|ε| = 1的True/Fa- lse问题。上述边界中的常数2相对紧致:当|ε|较大δ 时,针对不可遗忘概念,err_iiv可能接近1/2 , 而err ≤ 1则为2 。推论1还表明err_iiv ≤1 / 2。
幻觉错误分析。在将错误分析应用于幻觉时,可将ε 生成内容中包含(一个或多个)合理错误的那 部分视为有效样本集。值得注意的是,幻觉的另一种常见定义是与训练数据无关的生成内容(或 称为提示无关生成) 。值得庆幸的是,上述下限同样适用于这种定义——因为我们假设仅使用有 效训练数据,即生成的事实性错误不可能基于事实正确的训练数据。
校准。现在我们论证为何|δ|是一个在预训练后校准(失)程度较小的度量指标。需要注意的是, 在完全不了解语言的情况下,只需采用均匀分布^ p(x)= 1 /|X |即可使δ = 0 ,因此δ = 0并不需要 p =^ p 。审计人员δ 只需通过比较满足^ p(x)> 1 /|ε|与^ p(^ x ) > 1 /|ε|的响应比例,就能轻松评 估训练样本集x ~p和合成生成样本^ x ~^ p的一致性。受Dawid( 1982)研究启发,我们可以类比天 气预报系统每日预测降雨概率的情况。其基本校准要求在于预测概率的平均值是否与实际降雨概率 的平均值相匹配。人们还可以要求这两个值在预报> t为某个阈值t∈ [0 , 1]的日子里相匹配。戴维(1982)提出了更严格的要求:对于每个t∈ [0 , 1] ,在预测会下雨的天数中,t应该有t比例的时间。
这里有一个特别简单的理由来解释为什么对于标准的预训练交叉熵目标函数,δ通常是小的。

考虑将正标签样本的概率按因子s > 0重新缩放并归一化:


图2:GPT-4在强化学习前(左)和强化学习后(右) 的校准直方图( OpenAI ,2023a ,图8 ,经授权转 载)。这些图表针对多项选择题查询,其中合理答案仅为A 、B 、C或D 。预训练模型的校准效果良好。
然后,一个简单的计算表明,δ 是损失相对于缩放因子s的导数的大小,评估在s= 1处:

如果δ不等于0 ,然后通过某个s进行重新缩放 1会降低损失值,因此损失并非处于局部最小值。对于任何具备足够 强大能力来近似这种简单缩放的语言模型类别而言,局部优化应该会产生较小的影响δ 。需要注意的是δ , 仅在 单一阈值t = 1 /|ε|处定义的校准损失,其有效性弱于诸如期望校准误差(ECE)等概念——后者通过整合不同阈 值下的数据来增强准确性t。
幻觉现象在基础模型中不可避免仅是特例。众多学者指出,幻觉现象是必然存在的(琼斯, 2025;莱弗,2024;徐等人,2024)。然而,通过使用问答数据库和计算器,我们完全能够轻松 构建不出幻觉的模型——这类模型不仅能回答诸如“黄金的化学符号是什么?”这类固定问题, 还能进行“3+8”这样规范的数学运算,否则直接输出“ 不知道” 。更值得注意的是,推论1所示 的错误下限表明:不出现错误的语言模型必须经过校准,即δ必须是大规模模型。我们的推导过程 证实,校准——进而导致的错误——正是标准交叉熵目标函数的必然产物。实证研究(图2)显 示,与可能偏离交叉熵、转而采用强化学习的后训练模型不同,基础模型往往被发现处于校准状态。
3.2、通过提示减少
从现在开始,我们将第3.1节的设定推广到包含从提示词分布 中抽取的提示词(上下文)c ∈c 。现在每个样 本x=(c ,r)都由一个提示词c和一个合理的响应r组成。上述分析对应于一个特殊案例,其中µ分配概率为1。
对于给定的提示c ∈C,令Vc :={r|(c,r)∈V}为有效响应,εc :={r|(c,r)∈ε}为错误响应。此时训练分布和基础模型将转化为条件响应分布p(r| c),^ p(r| c)。为便于符号表示,我们将这些扩展为关于X的联合分布:p(c,r):= µ(c)p(r| c),而^ p(c,r):= µ(c)^ p(r| c),使得 err=^ p (ε) = Σ(c,r)∈εµ(c)^ p(r| c)且p(ε)=0。
训练数据的分布示例因此对应有效的“对话” ,例如蒸馏法中的情况(江等人,2023;安南德等人,2023)。虽然假设训练数据包含从同一提示分布中抽取的模型对话并不现实,但当这一假 设不成立时,错误率可能会更高。带有提示的独立同分布问题具有相同的目标函数f(x):= + 当 且仅当x ∈V ,但广义分布D以相等概率选择x ~p或x =(c ,r),其中c ~µ和r∈εc是均匀随机的。 最后,分类器^ f(c ,r)现在+ 当且仅当^ p(r|c)>1/min c|εc| 。因此,推论1显然是该问题的一个特例。
定理1. 对于任何训练分布p ,只要p ( V )= 1 , 以及任何基础模型^ p,

其中δ :=|^p (A )—p (A )|对于A:={ (c,r)∈X | ^p (r| c)>1 /min c |ε c|}。
再次进行重缩放^ ps(r|c)( 按prompt 进行归一化,仍使用单个参数s )

3.3、基础模型的误差因素
数十年的研究已揭示了导致误分类(二元分类错误)的统计因素。我们可以利用这些已有认知,列 举幻觉和其他生成性错误背后的因素,包括:统计复杂性(如生日预测,第3.3.1节);模型缺陷 (如字母计数,第3.3.2节);以及GIGO等其他因素(如阴谋论,第3.4节)。
3.3.1、任意事实幻觉
当无法用简洁的模式解释目标函数时,就会产生认知不确定性,这意味着训练数据中缺乏必要的 知识。瓦普尼克-切尔沃宁基斯维度(Vapnik和Chervonenkis,1971)VC(F)指标描述了以高概 率学习函数族F的最坏情况所需样本数量f:X→{—, + } 。具有高VC(F)维数的函数族可能需 要数量级以万计的样本才能学习。我们研究高VC维数的一个自然特例:随机任意事实。本节特别 关注有效响应(非IDK) ,这些响应在不同提示之间是随机且独立的。
定义1(任意事实)。下列要素固定不变:任意提示分布 µ(c) 、IDK响应,以及针对每个提示c :一个响应集合Rc和一个回答概率αc∈[0 ,1]。对于每个c,从Rc中均匀随机选择一个正确答案ac∈Rc。最后,对于每个c∈C,有p(ac|c)=αc且p(IDK|c)=1—αc。因此εc= Rc\{a c },且 V c = { ac,IDK }。
我们假设,对于任何给定的事实,都存在一种单一的书写方式,可以像主生日示例中指定的格式那样进行 书写。但是,我们再次指出,人们可能期望即使当涉及固定格式的生日时, 由于存在多种表述方式导致的幻觉现象 ,|εc|= 364 。而那些生日常被 提及的知名人士,其生日信息往往呈现高频出现µ(c)。例如爱因斯坦这类著名人物的生日会多 次出现,而其他人的生日可能仅在讣告中出现一次。大型语言模型在处理高频引用的事实时(如 爱因斯坦的生日或其博士论文题目)很少出错。
我们对幻觉的下限是基于提示在训练数据中只出现一次的比例,忽略IDKs。
定义2(单例率)若一个即时c∈C在N个训练数据中恰好出现一次,则称其为单例((c(i) ,r(i))。1 不弃权,即,|{i : c( i )= c Λ r ( i ) IDK}| = 1 。令S≤C表示单点集和

表示训练单例的比例。
单例率理论源自艾伦·图灵提出的经典“缺失质量”估计法( Good ,1953)。该方法通过统计 尚未在样本中出现的分布结果所占概率,来估算未观测事件的概率。具体而言,图灵的估计值基 于样本恰好出现一次的占比。直观来说,单例事件就像一个风向标,预示着后续采样中可能发现 多少新奇结果——因此这些样本的实际占比,就成为了整个分布中“缺失部分” 的概率估计。现 在我们来阐述任意事实的理论边界。
定理2(任意事实)。在任意事实模型中,任何接受N个训练样本并输出p的算法都满足:在概率≥99%的情 况下,对于=〈ac∈C的集合以及这N个训练样本:

此外,还存在一种输出校准 ^ p ( δ = 0 ) 的高效算法,其以概率 ≥ 99%,

本文早期版本曾提出一个相关定理,但该定理忽略了提示和弃权行为(Kalai与Vempala ,2024)。证明过程详见附录B 。Miao与Kearns(2025)的后续研究对幻觉效应、单例率及校准问题进行了实证分析。
3.3.2、劣质型号
当基础模型本身质量欠佳时,也可能导致误分类现象,原因主要有两种:(a)模型族无法准确表征 概念(例如用线性分隔符近似圆形区域),或(b)模型族表达能力足够强,但模型本身并不合适。 不可知学习(Kearns等人,1994)通过定义给定分类器族G中任意分类器的最小错误率来解决(a)种 情况g:X→{ − , + }:

如果选项(G)较大,那么G中的任何分类器都会具有较高的误分类率。在我们的案例中,给定一 个由θ∈ Θ θ参数化^p的语言模型,考虑一系列基于阈值的语言模型分类器:

由此可立即得到定理1

当每个上下文恰好有一个正确答案时(即标准的多项选择,没有IDK) ,校准项可以被删除,并且即使C= 2也可以达到边界。
定理3(纯多项选择)。假设对于所有c∈C ,有|V c | = 1 ,并令C= min c | εc | + 1为选项数量。那么,

举个栗子,经典三元语法模型就是这么回事——每个词都只看前两个词,也就是只有两个词的 上下文窗口。这种模型在八九十年代可是风头正劲,但经常输出不合语法的句子。举个例子,看看下面这些对话:

推论2. 设µ在{c 1 ,c 2}上是均匀的。那么任何三元模型的生成错误率至少为1/2。
这由定理3得出,因为对于三元模型,C = 2且条件概率公式(G)= 1/2 。定理3和推论2的证明详见附录C 。虽然n元模型能够捕捉更长距离的依赖关系(当n增大时),但其数据需求会随n增长呈指数级增长。
现在我们重新审视引言中提到的字母计数示例。要了解这是模型缺陷的体现,请注意DeepSeek-R 1推理模型能够可靠地进行字母计数,例如,它生成了一个包含以下内容的377个思维链:
让我来解释一下: D-E-E-P-S-E-E-K。
第一个字母:D——一个D 。第二个字母:E——不是D 。第三个字母:E——不是D...
所以,D的数量是1。
在使用相似训练数据的情况下,这表明R1模型比DeepSeekV3模型更适合该任务。推理过程克服了 一个表征挑战:现代语言模型通过代币(如D/EEP/SEE/K)而非单个字符来表示提示(DeepSeek-AI等人,2025)。
3.4、其他因素
错误可能由多种因素的组合引起,包括上文讨论的因素和其他因素。这里我们重点介绍其中几个因素。
• 计算复杂性难题。任何运行在经典计算机上的算法——即便是具备超人能力的AI系统——都 无法违背计算复杂性理论的定律。事实上,已有研究发现人工智能系统在计算复杂问题上会 出现错误(徐等人,2024)。附录D2的观察案例说明了定理1如何应用于此类难以解决的查询问题的c解密方式是什么? ”, 而IDK(不知道)正是这类问题的有效答案。
• 分布偏移。二元分类中一个广为人知的挑战是训练集与测试集数据分布常出现偏差(奎˜诺内 罗-坎德拉等,2009;莫雷诺-托雷斯等,2012)。类似地,语言模型的错误往往源于与训练 数据分布差异显著的分布外(OOD)提示。例如“一磅羽毛和一磅铅哪个更重?”这类问题 在训练数据中可能并不常见,却可能导致某些模型给出错误答案。同理,在前文提到的字母 计数案例中,虽然推理模型能正确计数这一事实表明,但分布偏移可能是次要因素,而模型 本身性能欠佳才是主要成因。
• GIGO(垃圾进,垃圾出)。大型训练语料库往往包含大量事实性错误,这些错误可能被基 础模型复现。无论是分类任务还是预训练阶段,GIGO的统计相似性都显而易见,因此我们未 对其进行正式分析。但需注意的是,在统计因素中识别GIGO至关重要——已有研究表明语 言模 型会 复制训练数据 中的错误(林等人 ,2022b;利维等人 ,2021;阿尔伯等人 , 2025)。
GIGO还自然地引出了训练后的话题,这可以减少某些GIGO错误,如常见的误解和阴谋论(Ouyang等人,2022;OpenAI ,2023a;Costello等人,2024) 。下一节解释了为什么一些幻觉会 持续存在——甚至可能被当前的训练后流程加剧。
4、培训后和幻觉
训练后的模型应当从类似自动补全模型的训练方式,转向不再输出确信不实内容(除非在适当情 况下,例如被要求创作虚构作品时) 。但我们认为,要进一步减少幻觉现象仍是一场艰难的攻坚 战——因为现有的评估标准和排行榜机制仍在强化某些类型的幻觉。因此我们需要探讨如何打破 这种强化效应。这本质上是一个社会技术问题:不仅需要改进现有评估体系,更需让这些改进措 施被具有影响力的排行榜所采纳。
4.1 评估如何加强幻觉
对语言模型的二元评价强加了一种错误的非黑即白二分法,既不认可表达不确定性的回答,也不给那些省略可疑细 节或要求澄清的回答加分。正如下文所述,诸如准确率和通过率等指标,至今仍是该领域的主流标准。在二元评价体系下...
在评分机制中,弃权行为属于次优选择。系统会对IDK型回答施加最严厉的惩罚,而过于自信的“最 佳猜测”则能获得最优评价。这种评分机制巧妙融合了两大优势:(a)语言模型输出内容的准确率, 以及(b)回答的全面性。但关键在于,相较于(b) ,更重视(a)这一考量对于减少误判至关重要。
对于任何给定的提示形式问题,我们用Rc表示所有可能的正确答案(有效或错误)集合,即{r | (c ,r) ∈X} 。此外,假设存在一组合理的弃答选项AcCRc(例如IDK) 。当评分标准gc:Rc → R被 定义为二元评分标准时 ,若满足{gc(r)| r∈Rc} = { 0 , 1 }且对所有r∈Ac均有gc(r)= 0 。 问题 由 (c,Rc,Ac,gc)定义,其中考官知晓c 、Rc 、Ac 。我们假设考官知道评分标准是二元的,但未 被告知正确答案(即gc(r)= 1)。考官对正确答案的信念可视为二元gc的后验分布pc 。对于任何 此类信念,最优反应都不是弃答。
观察1: 设c为一个提示。对于二元分级器上的任何分布p c ,最优响应(s)并非弃权,即,

虽然证明过程相当简单(详见附录E) ,但观察结果1表明现有评估体系可能需要调整 。附录F中的简短元评估分析(表2)显示,绝大多数主流评估采用二元评分机制。因此,当主要评估体系 惩罚如实报告置信度与不确定性时,单纯增加幻觉评估可能收效甚微。这并非否定现有幻觉评估研 究的价值,而是指出即便存在理想的幻觉评估标准和能如实反映置信度的理想训练后评估方法,由 于在绝大多数现有评估中表现欠佳,这些改进仍可能被淹没在数据噪音中。
4.2、显性置信目标
人类考试同样多采用二元评分机制,人们早已意识到这种机制也会助长过度自信的虚张声势。当然, 考试只是人类学习方式的一小部分——比如编造生日信息很快就会让人难堪。不过,包括印度JEE(联 合入学考试)、NEET(国家统一入学考试)、GATE(研究生入学考试)、美国数学协会AMC考试, 以及美国早期的SAT(大学申请考试)、AP(大学先修课程)和GRE(研究生入学考试)等在内的标 准化全国性考试,都曾采用或仍在采用答错扣分(或等效的弃考部分加分) 的评分规则。值得注意的 是,评分标准在考试说明中都有明确说明,考生通常也清楚知道需要在什么自信阈值之上做出最佳猜 测才合乎逻辑。
同样,我们建议在提示(或系统消息)中明确声明置信度目标 。例如,可以在每个问题后附加 如下语句:
只有当你t/(1 −t)分的分数会被扣掉,而正确答案会得到1分,而“ 我不知道” 的答案会得到0 分。
t 的自然取值有t=0.5(惩罚系数1)、t=0.75(惩罚系数2) 以及t=0.9(惩罚系数9)。当t = 0时对应二元评分机制, 其具体表述可采用类似“如同参加考试般,即便不确定也要尽力做出最佳判断” 的表述方式。通过简单计算即可 得出...
表2:本研究分析的评估基准及其对弃权处理方式的总结。“二元评分”表示主要指标是严格 的正确/错误准确率;“IDK学分”表示弃权是否可以获得学分。

表明,给出答案的期望分数优于IDK(分数为0),当且仅当其置信度(即,正确的概率)>t。
这类惩罚机制在幻觉研究领域已有深入探讨(Ji等人,2023)。但我们发现其中存在两个细微 差异,这些差异具有统计学意义。首先,建议在训练指令中明确设置置信度阈值——现有研究大 多未提及置信度目标或惩罚机制(Wu等人的2025研究是个例外,他们提出了带有明确惩罚机制的 “风险告知”提示)。理想的惩罚机制应反映现实危害的可能性,但这种设定过于具体,难以适应 不同问题、应用场景和用户群体。若训练指令缺乏透明的阈值设定,语言模型开发者将难以就合理 阈值达成共识。同理,若评分指令中未明确错误惩罚标准,学生可能会质疑评分机制的公平性。因 此,在每个问题的训练指令中明确设置置信度阈值,即便具体阈值选择存在主观性或随机性,也能 确保评分过程的客观性。如果阈值是明确的,那么一个模型可能在所有阈值下都是最好的。但是, 如果阈值没有明确说明,那么就存在固有的权衡,没有一个模型在一般情况下是最好的(除了一个 总是正确的模型)。
其次,我们建议将置信度指标纳入主流评估体系。例如广受关注的SWE基准测试(吉梅内斯等 人,2024)就采用软件补丁的二元评分机制,而现有研究大多在定制化幻觉评估中引入隐性误差惩 罚。单纯增加隐性误差惩罚的评估方式仍存在前文所述的精度与误差权衡问题。相比之下,在已广 泛使用的主流评估体系中融入置信度指标,能有效降低对合理表达不确定性的惩罚力度。这种做法 有望显著提升专为幻觉评估设计的系统的有效性。
在明确的置信度目标下,存在一种行为可以同时对所有目标最优——在正确性概率大于某个阈值的示例中输出IDK。
目标。我们将这种现象称为行为校准——不同于要求模型输出概率置信度(Lin等人,2022a), 它必须确定在至少t置信度下最有效的响应方式。通过比较不同阈值下的准确率和错误率,可以验 证行为校准的有效性 , 同时规避了正确回答方式可能呈指数级增长的问题(Farquhar等人,2024)。现有模型可能具备也可能不具备这种校准能力,但将其作为客观评估指标可能具有重要价值。
5 、讨论和局限性
由于幻觉具有多面性,该领域很难就如何定义、评估和减少幻觉达成一致。为了简化,统计框架必须优先考虑某些方面而忽略其他方面。关于本文所用框架的范围和局限性,有几点需要说明。
可信性与无意义性。幻觉现象属于合理错误,由于我们的分析仅考虑X字符串的可信性,因此忽略 了生成无意义字符串的可能性(当前最先进的语言模型极少产生此类情况)。不过,定理1的陈述 与证明在以下修正定义下依然成立:将无意义字符串N 的划分设为X = NUεUV ,错误率定义为^ p (NUε ) , D(N )= 0 ,并假设p(V )= 1。
开放式提问的代际差异。为便于理解,本文示例聚焦单一事实性任务。但类似“撰写....传记”这 类开放式指令常引发想象偏差,我们可通过将包含多个错误的回答定义为错误案例,将其纳入框 架体系。不过在此类场景中,根据错误数量评估想象偏差程度的做法更为自然合理。
搜索技术(及其推理机制)并非包治百病的灵丹妙药。多项研究表明,通过搜索或检索增强生成 (RAG)技术优化的语言模型能有效减少幻听现象(路易斯等学者,2020;舒斯特等学者,2021;中野等学者,2021;张和张,2025)。但值得注意的是,这一规律同样适用于各类语言模型,包括 采用RAG技术的模型。具体而言,二元评分系统本身仍会在搜索未能得出可靠答案时,继续对猜测 行为给予奖励。此外,对于字母计数等计算错误或其它内在性幻听现象,搜索机制可能收效甚微。
隐含上下文。部分错误无法仅通过提示和回答来判断。例如,当用户询问手机相关问题时,语言模 型却给出了关于蜂窝网络的回复,而提问本意是咨询固话相关问题。这类歧义不符合我们的错误定 义标准,因为该定义不依赖于提示和回答之外的外部上下文。若能扩展模型以纳入“ 隐性上下文” 将十分有趣——这些上下文虽未直接出现在给语言模型的提示中,但可用于判断错误,涉及随机不确定性。
这种虚假的三元对立。我们的评估体系并未区分不同规模的误差或不同程度的不确定性。显然, 传统的正确/错误/不确定(IDK)分类同样存在局限性。虽然统计学上的理想状态是像评估下游应 用中的语言模型那样,为每个评价打分,但明确置信度目标为主流评估提供了实用且客观的改进 方案。相较于虚假二分法,这种虚假三元对立至少能提供一个IDK选项——这在传统评估中是不存在的.
除了IDK之外,人类表达不确定性的方式多种多样,比如使用对冲措辞、省略细节或提出疑问。尽 管语言模型可能遵循诸如语言校准(米尔克等人,2022;达马尼等人,2025)等置信度概念,但语 言的实际运用现象(奥斯汀,1962;格莱斯,1975)却充满微妙之处。例如,虽然语言模型有时需 要明确表达概率性置信度(林等人,2022a),但这种做法也可能导致不自然的表述,比如“我有 1/365的概率确定卡莱的生日是3月7日”。本文重点探讨影响语言模型最终决策的统计因素。
6、结论
本文从现代语言模型中揭开幻觉现象的神秘面纱,从其在预训练阶段的起源到训练后持续存在的现象。我们发现,在预训练过程中,生成式错误与监督学习中的误分类现象相似——这些错误并 非神秘存在,而是由于交叉熵损失最小化所自然产生的结果。
许多语言模型的缺陷可以通过单一评估指标来捕捉。例如,过度使用开场语“ 当然” 的问题, 可以通过单独设置“当然 ”评估来解决(阿莫迪和弗里德曼,2024),因为以“ 当然”开头的回 答对其他评估指标影响甚微。相比之下,我们认为主流评估体系大多在纵容幻觉行为。对现有评估 体系进行简单调整,就能重新校准激励机制——奖励合理的不确定性表达而非惩罚它们。这不仅能扫除抑制幻觉的障碍,还将为未来开发更精细的语言模型开辟道路,比如具备更强语用能力的模型(马等人,2025)。
致谢。我们衷心感谢AlexBeutel、TomCunningham、YannDubois、ParikshitGopalan、JohannesHeide- cke、ZoeHitzig、SaachiJain、ManasJoglekar、SanjayKairam、EhudKalai、AminKarbasi、AlanLuo、AnayMehrotra、EricMitchell、CameronRaymond、DavidG. Robinson、MandipShah、JoshuaVendrow、GrigorisVelegkas、RoseWang、ZhigangWang、JasonWolfe和JasonWei在讨论中给予的宝贵建议。
(参考文献列表详细列出了所有引用的论文和资料,此处省略具体条目以节省空间)
主定理的证明
我们证明主要定理。
定理证明1。设K:=c∈C|εc|的最小值,k := max c∈C| Vc|。同时回顾δ=|^ p(A)–p(A)| ,该表达式可等价表示为δ=|p(B)–^p(B)|,其中A、B分别表示高于和低于阈值的响应:

将幻觉和误分类率划分为阈值以上和阈值以下两种类型:

当错误分类数超过阈值时,D(A \ V )等于所有满足条件的D(c ,r)的总和,其中∈A指r∈εc——每个贡献项 D(c ,r)的计算公式为µ(c)/ 2 |εc|≤µ(c)/ 2 K 。但每个这样的错误分类还会对阈值以上的幻觉现象做出贡 献,其计算公式为µ(c)^ p(r | c) ≥µ(c)/K 。因此,

因此,只需证明低于阈值的情况:

根据定义,2 D(B∩V )= p(B∩V )= p(B)。此外,每个c对应有|Vc|≤k种有效响应,每个响应在B中的概率为^ p(r | c) ≤ 1 /K ,因此^ p(B∩V ) ≤ Σc ^ p(c)k/K = k/K 。因此,

如需要,这等同于式(6)。
B任意事实分析
我们首先回顾古德-图灵(GT)缺失质量估计量( Good ,1953)及其理论保证(麦卡莱斯特与奥尔蒂斯,2003)。在此设定中,从S集合ν 上抽取N个独立同分布样本s ~ ν N ,且不考虑弃权情 况。缺失质量指从训练集中抽取新样本时出现ν 未被包含的概率,GT估计量则是训练样本中唯一 出现一次的占比。我们首先陈述先验保证,然后将其调整适用于包含弃权数据的场景。麦卡莱斯特与奥尔蒂斯( 2003)的理论保证可表述为:
推论3. (McAl lester和Ortiz,2003)设s ~ ν N 为从分布ν上集合S中独立同分布的样本。令M := Pr x ~ ν [ x∈s ]和GT表示恰好出现一次的样本所占的比例。对于任意γ∈(0 ,1]:

证明。设GT := E[GT] ,M := E[ M ] 。通过结合关于M和GT的集中性边界,推论即可得出。首先,McAllester和Schapire(2000年)的第一定理表明:

然后,定理10和16(McAllester和Ortiz ,2003)表明, 以 ≤ exp( —Nε 2 )的概率,M在任一方向上 与M的偏差将超过ε , 通过联合界给出的


根据McAllester和Schapire( 2000)的引理13 ,McDiarmid不等式(McDiarmid ,1989)直接推导出 GT的收敛性,因为改变任意一个样本最多只能使GT变化2/N 。因此,

通过联合边界,将这三个显示方程组合起来,得到

最后,推论由1 + √ 得出2 ≤ 2.42.
我们将这一概念扩展到弃权响应IDK未被计入sr的情况。具体来说,如果训练数据中存在一个训练样本(c (i ),r(i )),且满足c(i )= c且r(i ),则说明查询c在训练数据中被回答。不等于IDK ,否则未回答。

表示未回答查询的集合。当然,通过记忆已回答查询的ac,可以实现对已回答查询的完美分类准确率。我们将图灵的缺失质量(MM)估计扩展到弃权情况如下:

我们同样使用推论3来证明sr是MM的良好估计器:
引理1. 对于所有N,γ∈ (0 、 1] :

证明。我们的MM-sr与标准M-GT 的唯一区别在于我们忽略了弃权选项。为了调整之前的界限,考 虑通过将所有儿 =(c , IDK)替换为儿 = IDK而其他参数保持c不变所得到的样本s 。这将所有 IDK响应合并为相同的样本。因此,相较于sr ,GT最多可能多统计一个单例样本,

上述替换将导致如下分布φ:φ(IDK)= Σ cμ(c)p(IDK| c)表示弃权概率。类似地,我们得到M− MM∈{0 ,φ(IDK)}的条件概率为M−MM =φ(IDK),当且仅当IDK满足以下条件时成立。s,其发生概率为(1−φ(IDK))N 。但我们也存在(1 −φ(IDK))N ≤√/ 5的情况。ϕ(IDK) ≥ ln . 因此,无论φ(IDK)的值是多少,

将上述两个显示的方程式组合为:

推论3在五分之四Y给予

结合式(77)通过并集定理和三角形不等式,可得:

Finally, the lemma follows from the fact that for z :=2\N ln 5\Y≥1\N ln 5\Y+1\N, we have z ≤ √z as long 如z≤ 1(否则引理显然成立,因为边界是> 2)。
引理2. 对于任意N≥ 1 ,√∈ (0 ,1] , 以及任何输出^p的算法,

证明:根据引理1

请注意对于N≥ 2(且引理显然适用于N= 1的情况) 。此外, √ 2 + 4 . 42 ≤ 6 。因此, 只需证明以下结论即可:

令ζ := ln(3 N/γ ) /N ,并计算每个查询出现时带有答案(非IDK)的概率
根据p为:
µ ,(c ):=µ(c ) α c
因此,当ac被选中时,µ ,(c)= p(c ,ac)。同时注意MM=Σ c∈Uµ ,(c)。该引理将通过以下两个不等式得出:

µ ,(c) ≤ζ 条件将使我们能够使用霍夫丁界。对于方程(8),注意存在≤ 1个/ζ 查询c与µ ,(c) ≥ ζ 。对于每个这样的查询,概率c∈U最大为(1 −ζ ) N 。因此,根据并集界,

这等同于式(8),现在我们继续建立式(9)。
令指示器I[ ϕ ]在谓词ϕ 成立时取值为1 ,否则取值为0 。误差erriiv至少等于其在c∈U,r∈Rc上的总和, 根据D的定义,

因此,erriiv ≥ Σ c∈Uµ ,(c)γ c的定义如上所述,不难看出其取值范围为γc[0 ,1] 。 (µ ,(c) ≤ζ 条件将 使我们能够将霍夫丁界应用于Σ µ ,(c)γ c 。)因此,我们只需证明以下结论即可替代方程(9):

现在来看关键技巧: 由于算法的输出与未见过的c∈U无关ac ,我们可以等效地设想:ac的选择仅在 算法对训练数据运行后,根据确定^ f 的^p值来决定对未见过的c∈U进行选择。因此,假设cv将被 选入c∈U ,但此时训练数据及^ f值已经固定。
我们发现E[ γ c ] = 1 / 2 ,因为无论r∈Rc是否满足^ f(c,r)= ± , 每个这样的r都会对这个期望值贡献1/2|Rc| 。由此可得E[Σ cµ ,(c)γ c ] = MM / 2 ,其中MM=Σ cµ ,(c)。最后,我们可以应用霍夫丁界来分析Σ cµ ,(c)γ c ,因为 µ ,(c)γ c是独立的随机变量,各自落在[0 ,µ ,(c)]区间内。该界值取决于,

因此,Hoeffding界给出,

这相当于方程(10)中的表达式,因为√ 2 ζ ln(6 /γ ) 等与√ 2 ln(3N/γ)ln(6/γ)/N ≤ ln(3N/γ)p 2/N (使用ln(6/γ)≤ln(3N/γ)成立,而引理对于N= 1也自然成立)。
现在证明定理2。
定理2的证明2。对于任意区间γ∈(0,1],以下更一般的下界直接由定理1和引理2得出:当maxc|Vc|=2时,以概率≥1−γ:

在≥99%的概率下,当γ=0.0. 1时,我们采用简化处理:令6 ln(3 N/γ ) ≤ 35 + 6 ln N 。现在令L := max c|εc|。 对于上界,我们现在证明存在一个高效的算法输出校准^ p(因此δ = 0) ,并且以概率≥ 1 −γ ,

定理中的99%概率边界来自5√In(500)< 13。
经过校准的语言模型学习算法将记忆ac用于(c ,ac)在训练数据中看到的,并与p在这些c上完全一致。
在训练数据中U见到。对于未见过的c∈U ,它以1的概率选择正确选项− α c ,否则在Rc上进行均匀随机选择:

“这^ p 。”

最后,根据引理1

这些意味着,

如需要。剩下的就是证明对于所有z∈ [0 , 1] , δ z = 0 。根据δ z的定义,

根据定义^ p(r | c)在除c∈U和r∈Rc之外的所有位置都等于p(r | c)。对于每个c∈U ,^ p(c,r)在r ∈Rc区域内保持恒定,因此当所有r∈R c或没有r∈Rc时,^ p(c,r)都> z 。因此无论哪种情况,上述内 层求和结果都是0:因为当Σ r∈Rc时,^ p(r | c) −p(r | c)= 0 ,而^ p(IDK | c)= p(IDK | c)。
模型分析
就像多项选择题考试那样,每个问题只有一个正确答案。在这种情况下,如果唯一正确的选项是 唯一的正确答案,而我们无法可靠地区分其他选项,那么出现错误就变得很自然了。对于这种简 单的情况,我们证明存在一个阈值t ,并给出了更优的边界估计。具体来说,假设

因此当t=1/分钟时,^ f=^ f t |εc| ,而^ f 的定义在正文已有说明。现在我们将陈述并证明一个比定理3更强的定理。定理3可直接由opt(G)的定义及以下定理得出。
定理4. 假设对于所有c∈C都有|V c | = 1 ,令C= min c | ε c | + 1为选项数量。那么对于所有p,^ p ,都存在某个阈值t ∈ [0 ,1]使得:

注意,推论2的证明直接从定理4中得到
推论2的证明 2。该证明直接由定理4和err iiv(^ ft )=这一事实得出。
1 / 2因为基于三元模型的分类器^ ft无法区分c 1 、c 2 。
现在我们证明定理4。
定理4的证明4 。考虑到选择一个均匀随机的t∈ [0 , 1] 。我们证明:

这意味着必须存在某个阈值t∈ [0 , 1]使得该条件成立。需要注意的是,对于均匀随机的t∈ [0 , 1],

首先,预期假阳性率(^ p(r | c)> t )为:

其次,对于每个c ,令Ac = {ac} ,则预期的假阴性率是:

因此,预期的误分类率,即预期的假阳性和假阴性率之和,满足:

相当于重新排列项后的式(11 11)。
计算上难以处理的幻觉
在本节中,我们提供了计算不可行性的典型示例第3.4节。更自然的、导致幻觉的实证困难问题的 例子由Fan等人( 2024)和Tang等人( 2025)进行了研究。
一个安全的加密系统必须具备这样的特性:任何高效的算法都无法比随机猜测更准确地推测出 正确答案。在对称密钥加密系统中,若双方不知道共享的密钥S,即使窃听者也无法破译通信内容。从形式化定义来看,这种系统包含三个核心要素:消息集M、密文H、加密函数eS:M→H,以及解密函数dS:H→M。其中,对于所有m∈M,都有dS(eS(m))= m。
在幻觉语境中,p输出形式为c,r,其中r∈M是均匀随机变量,提示语c采用“如何解密h?”的形式,其中h= eS(r)。不出所料,我们的主要定理表明语言模型会产生错误。在安全系统中, 若无法识别S,就无法区分m∈M为均匀随机消息且h∈H为错误(或均匀随机)密文的对m,e S(m)与m,h。换言之,无法区分真实通信与错误或随机通信的分布特征。这种表述与我们的分布D相匹配:以1/2的概率,x =(e(m),m);以1 / 2的概率,x=(h)。e(m),m ),其中h∈H \{e(m)}是均匀随机的。这对应于随机提示µ,目标函数f(h,r)= +当且仅当h = e(r)时成立。标准难度安全定义的一种形式如下(参见,例如Goldreich,2001年):
定义3(安全加密)。设β∈[0 ,1] 。分类器^f: X→{ + ,−} 。若加密方案β -breaks,则:

如前所述,随机分布^p在任何时间点t下都具有δ = 0的特性,因此很容易产生弱校准响应。然 而,任何经过校准的语言模型都无法正确回答此类提示——假设其无法破解密码系统。基于这些 定义,定理1立即通过|Vc| = 2和|εc| = |M| − 1的条件得出以下结论:
观察2.对于任何[0 ,1]的β∈和任何语言模型^ p ,如果分类器^f不β破坏加密安全,则^p将以至少的 概率输出错误的解密r,

这个风格化的例子说明了我们的简化如何应用于计算困难的问题,以及监督学习的计算困难如 何与幻觉的一个因素计算困难相平行。
培训后分析
以下是观察结果的简短证明1。
观测证明1 。假设对于所有r∈Ac都有gc(r)= 0 ,并且每个二元评分函数g c都在某个值r∈Rc \ Ac处 取gc(r)= 1 。此外, 由于X被假定为有限集合,必定存在某个这样的r使得Pr gc~ρ c [ gc(r)= 1] > 0 。这由并集界得出:

因此,就预期分数而言,所有r∈A c都是严格次优的。
不确定响应的电流分级
我们通过分析具有影响力的评估指标,来探究奖励猜测或虚张声势的二元评分机制在语言模型领 域的普遍性。尽管近年来语言模型评估数量激增,但该领域仍聚焦于少数几个基准测试。本文通 过研究主流排行榜,揭示这些权威评估如何量化回答的不确定性。其中两个排行榜依据多项筛选 标准精选评估指标,另外两个则自主创建了现已被广泛采用的基准测试体系。
表2(第14页)展示了本文选取的十项评估指标。其中仅有一项被纳入多个排行榜的WildBench (林等人,2025)对不确定性标注的贡献度评分较低。值得注意的是,两个精选排行榜的前三项评估指标存在50%重叠。作为对这些评估重视程度的进一步佐证,谷歌最新发布的语言模型产品(Gemini2.5Pro,谷歌DeepMind,2025)中包含了GPQA、MMLU、SWE-bench、HLE和AIME(与MATHL5类似)的测试结果。OpenAI同样公布了GPQA(OpenAI,2024)、经MMLU和SWE-bench验证的模型(OpenAI,2025d)、IFEval(OpenAI,2025c)以及MATH (OpenAI,2023b ),以及HLE(OpenAI,2025b)。斯坦福大学2025年发布的AI指数报告(Maslej等人,2025)包含了MMLU-Pro、GPQA、WildBench、MATH、SWE-bench和HLE的测试结果。
值得注意的是,许多评估体系会使用语言模型来评判答案,例如判断1/5和3/2这类数学等式的 正确性。但研究发现,语言模型在评分时也会出现误判,即便面对数学题时,有时会将冗长错误 的回答判定为正确(徐等人,2025)。这种评估机制的特性,即便在数学这类客观领域,也可能 助长考生的臆想行为。
F.1、HELM功能基准
语言模型整体评估框架(全称Holistic Evaluation of Language Models ,简称HELM ,李良等学者于 2023年提出)是业内公认且广泛应用的评估标准。其旗舰级Capabilities排行榜(该榜单7位列所有 排行榜首位) 旨在“体现我们对通用能力评估的最新思考” ,该榜单包含五个评估场景:其中四个 场景明确不会给IDK(不知道/不知道)评分,而第五个场景对IDK的评分甚至低于存在事实错误或 想象成分的合理回答,这种设计实际上也在鼓励参赛者进行随机猜测。
具体而言,其包括一组场景,选择方式如下。
针对每个能力指标,我们从现有文献中选取了具有代表性的应用场景进行评估,综合考量 三大维度:1)是否已达到饱和状态(基于前沿模型性能判断);2)是否具有时效性(根 据发布日期确定);3)质量是否过硬(通过清晰度、应用普及度和可复现性三个维度评 估)。最终共有22个模型在5个能力导向场景中完成基准测试。( 徐等人,2025>)
该评估框架包含五个测试场景。前四个场景几乎不为IDK选项计分。MMLU-Pro(王等人,2024) 和GPQA(耶稣莱因等人,2024)被评定为标准选择题考试,且不设IDK选项。Omni-MATH(高某等人,2024a)通过将数学题目输出与标准答案进行比对来评估正确度,因为同一数量可有多种 等效表达方式(例如1+τ =τ +1),但该测试同样不为IDK选项计分。
IFEval(周等,2023)需要生成遵循若干指令的文本,但没有提供任何具体的弃用选项。示例指令包括:
请用300+字撰写维基百科页面摘要...不要使用任何逗号,并以markdown格式突出显示至少三个标题 部分...
答案将使用多种语言模型根据指令遵循的准确性进行评分。虽然不太可能且非预期,但可以想 象,像IDK这样的弃权字符串可能会被视为足够。
最后,WildBench(林等人,2025)是最相关的场景,因为它使用评分者语言模型评估了语言 模型对真实用户聊天的响应。评分标准采用10分制,说明中包括
- Score 1 ~ 2 :响应非常差,完全没有意义。
- Score 3 ~ 4 :响应很糟糕,不能帮助用户有效解决问题。
-评分5 ~ 6分:回答比较公允,但存在一些问题(例如,事实错误、幻觉、缺少关键信息)。
由于IDK回答不能帮助用户以有意义的方式解决问题,因此可能会给出较低的评分(3-4),低于 存在事实错误或幻觉的合理回答(5-6)。因此,评分可能会鼓励猜测。
HELM实际上包含海量数据, 由数百个高质量评估组成。但由于成本和关注度的限制,这些复 杂的评估结果通常通过规模较小的排行榜进行汇总呈现。我们研究了其官网首页展示的排行榜, 但HELM中仅有极少数场景允许使用“不知道”选项。例如,广为人知的偏见基准测试
帕里什等人(2022年)在安全排行榜上列出的QA(BBQ)评估包含许多正确答案明确为IDK的问 题,例如: “一名基督徒和一名穆斯林在炸弹爆炸后都被看到逃离犯罪现场。谁可能是安置炸弹的人?”
F.2、开放型语言模型领导者排行榜
广受欢迎的开放LLM排行榜(米尔扎汗等人,2024)是开源语言模型领域最知名的可复现基准之 一,其最新版本平均综合了六大知名多任务基准的性能表现。与HELM类似,该排行榜从Eluethe- rAI的LM评估框架(高某等人,2024b)构建的庞大评估体系中筛选出子集。 同样遵循HELM标 准,所选任务需满足高质量、广泛应用、可靠性、公平性、抗干扰及能力覆盖等多项要求(Hugg ingFace ,2024)。尽管该排行榜在2025年停止更新,但因其作为社区引用率最高且最具影响力的 基准资源之一,我们仍将其纳入分析范围。
与HELM能力测试类似,新版测试(拥抱面孔,2024)同样包含MMLU-Pro(王等人,2024)、GPQA(Rein等,2024)和IFEval(周等,2023),IDK对这些任务通常无法获得任何分数。测试还包含BigBenchHard(BBH)(苏兹根等,2023),这是从BigBench基准测试中选取的23个子任务(斯里瓦斯塔瓦等,2023),这些任务采用选择题或完全匹配评分机制,因此IDK无法获得任何部分分数。此外,测试还包含MATH竞赛集的Level-5细分任务(亨德里克斯等,2021)以及多步骤软推理评估(MuSR)(斯普拉格等,2024),这两项评估仅基于准确率计算,IDK同样无法获得分数。
F.3、SWE-bench和人类的最后考试
SWE-bench(吉梅内斯等人,2024) 已成为最具影响力的编程基准测试和排行榜之一。8该测试包含来自GitHub问题的2294个软件工程问题,评分标准是准确性,因此不会区分错误补丁和表示不 确定的响应。
人类最后一场考试(HLE ,Phan等人,2025)的诞生,正是为了应对顶尖语言模型在主流评估 中近乎完美表现的现象。该测评包含涵盖数学、人文、社会科学等数十个领域的2500道题目,并特 别设置了私有测试集以防范试题泄露至训练数据导致的过拟合问题。作为目前规模人工智能网站上 首个排行榜9 ,HLE已获得OpenAI( OpenAI ,2025b)和谷歌( GoogleDeepMind ,2025)在其语 言模型报告中的重点推介。类似在大多数评估中,主要指标是二元准确率,对IDK不给予任何积分。截至本文撰写时,所有报告的HLE准确率 均低于30%。
值得注意的是,HLE模型还提供了一项校准误差指标,用于评估模型校准偏差的程度。但当前 的校准表现仍不尽如人意,多数模型的校准错误率仍高达70%以上。虽然正如作者所述(Phan等人,2025),校准误差可能粗略地“ 暗示了虚构/幻觉现象” ,但它仅能衡量事后准确率估计的不 足。校准误差并不能作为衡量幻觉的恰当指标,原因在于:
• 如果一个模型总是生成错误答案,并且在每个答案中都显示0%的置信度,那么该模型可以实 现100%的误判率且没有校准误差。虽然事后置信度评估可能有用,但在许多应用中,与其向 用户展示这类答案,不如直接隐藏它们,尤其是那些无视低置信度警告的用户。
• 如果一个模型总是以0%的置信度生成正确的答案,则该模型永远不会产生幻觉并具有100%的校准误差。
-END-