關(guān)注微信公眾號(hào)
創(chuàng)頭條企服版APP
OpenAI 近日發(fā)布研究報(bào)告,針對(duì)當(dāng)前廣受關(guān)注的「語(yǔ)言模型幻覺(jué)(hallucination)」問(wèn)題進(jìn)行深入剖析。
報(bào)告指出,即便當(dāng)前的語(yǔ)言模型能力不斷增強(qiáng),模型自信地生成不真實(shí)答案的「幻覺(jué)」問(wèn)題,依然難以徹底根除。
OpenAI 的最新論文認(rèn)為,這一現(xiàn)象源自目前主流的訓(xùn)練和評(píng)估方式更傾向于獎(jiǎng)勵(lì)「猜測(cè)」,而非「承認(rèn)未知」。
研究分析稱,大語(yǔ)言模型的主要訓(xùn)練方式是序列預(yù)測(cè)(即「下一個(gè)詞預(yù)測(cè)」),缺乏負(fù)面示例,因此模型更擅長(zhǎng)生成流暢語(yǔ)言,而非判別真假。
在模型學(xué)習(xí)過(guò)程中,常見知識(shí)(如拼寫)可通過(guò)歸納掌握,但不常見甚至隨機(jī)性的事實(shí)(如生日)則難以通過(guò)語(yǔ)言規(guī)律推斷,導(dǎo)致出現(xiàn)幻覺(jué)現(xiàn)象。
報(bào)告建議,未來(lái)的模型評(píng)估體系應(yīng)對(duì)自信的錯(cuò)誤給予更高懲罰,同時(shí)對(duì)恰當(dāng)表達(dá)不確定性的模型給予部分分?jǐn)?shù)。這一思路,借鑒了部分教育領(lǐng)域的負(fù)分制和部分學(xué)術(shù)團(tuán)體的前沿研究。
OpenAI 強(qiáng)調(diào),僅在部分評(píng)估體系中試行新辦法是不夠的,主流的基于準(zhǔn)確率的評(píng)分標(biāo)準(zhǔn)應(yīng)全面革新,否則模型開發(fā)者會(huì)持續(xù)優(yōu)化「猜測(cè)」算法。
以下為報(bào)告譯文:
語(yǔ)言模型為何會(huì)產(chǎn)生幻覺(jué)
摘要
如同面對(duì)難題的學(xué)生一樣,大型語(yǔ)言模型有時(shí)在不確定時(shí)會(huì)進(jìn)行猜測(cè),產(chǎn)生看似合理但不正確的陳述,而不是承認(rèn)不確定性。這種“幻覺(jué)”即使在最先進(jìn)的系統(tǒng)中仍然存在,并削弱了信任。
我們認(rèn)為,語(yǔ)言模型產(chǎn)生幻覺(jué)是因?yàn)橛?xùn)練和評(píng)估程序獎(jiǎng)勵(lì)猜測(cè),而非承認(rèn)不確定性,并且我們分析了現(xiàn)代訓(xùn)練流程中幻覺(jué)的統(tǒng)計(jì)原因。
幻覺(jué)不必是神秘的——它們簡(jiǎn)單地起源于二元分類中的錯(cuò)誤。如果錯(cuò)誤陳述無(wú)法與事實(shí)區(qū)分開來(lái),那么預(yù)訓(xùn)練語(yǔ)言模型中的幻覺(jué)將通過(guò)自然的統(tǒng)計(jì)壓力產(chǎn)生。
然后我們論證,幻覺(jué)之所以持續(xù)存在,是因?yàn)榇蠖鄶?shù)評(píng)估的評(píng)分方式——語(yǔ)言模型被優(yōu)化為擅長(zhǎng)應(yīng)試,而在不確定時(shí)進(jìn)行猜測(cè)能提高測(cè)試表現(xiàn)。
這種“普遍存在的”懲罰不確定回答的現(xiàn)象只能通過(guò)一種社會(huì)技術(shù)性的緩解措施來(lái)解決:修改那些未對(duì)齊但主導(dǎo)排行榜的現(xiàn)有基準(zhǔn)測(cè)試的評(píng)分方式,而不是引入額外的幻覺(jué)評(píng)估。這種改變可能會(huì)引導(dǎo)該領(lǐng)域走向更可信的 AI 系統(tǒng)。
1、引言
眾所周知,語(yǔ)言模型會(huì)產(chǎn)生過(guò)度自信、看似合理的虛假信息,這降低了它們的實(shí)用性。這種錯(cuò)誤模式被稱為“幻覺(jué)”,盡管它與人類感知體驗(yàn)有根本上的不同。盡管取得了重大進(jìn)展,幻覺(jué)仍然困擾著該領(lǐng)域,并且存在于最新的模型中(OpenAI, 2025a)。考慮以下提示:
亞當(dāng)·陶曼·卡拉伊的生日是什么?如果你知道,請(qǐng)用DD-MM格式回復(fù)。
在三次獨(dú)立的嘗試中,一個(gè)最先進(jìn)的開源語(yǔ)言模型1 輸出了三個(gè)錯(cuò)誤的日期:“03-07”、“15-06”和“01-01”,即使只要求在知道的情況下才回答。正確的日期在秋季。表 1 提供了一個(gè)更復(fù)雜的幻覺(jué)例子。
幻覺(jué)是語(yǔ)言模型產(chǎn)生的錯(cuò)誤中一個(gè)重要的特殊案例,我們使用計(jì)算學(xué)習(xí)理論(例如Kearnsand Vazirani 1994)進(jìn)行更一般的分析。我們考慮一般錯(cuò)誤集合E,它是可能字符串集合X的一個(gè)任意子集,其中X=EUV,其他可能字符串V稱為有效字符串。然后,我們分析這些錯(cuò)誤的統(tǒng)計(jì)性質(zhì)。
ChatGPT: Adam Tauman Kalai 的博士論文(2002 年于卡內(nèi)基梅隆大學(xué)完成)題目是:(GPT-4o) “Boosting, Online Algorithms, and Other Topics in Machine Learning。”(Boosting、在線算法及其他機(jī)器學(xué)習(xí)主題)
DeepSeek: “Algebraic Methods in Interactive Machine Learning”...(交互式機(jī)器學(xué)習(xí)中的代數(shù)方法)...2005 年于哈佛大學(xué)。
Llama: “Efficient Algorithms for Learning and Playing Games”...(學(xué)習(xí)和玩游戲的高效算法)...2007 年于麻省理工學(xué)院。
將結(jié)果應(yīng)用于我們感興趣的錯(cuò)誤類型:稱為幻覺(jué)的看似合理的虛假陳述。我們的形式化框架也包含了“提示”的概念,語(yǔ)言模型必須對(duì)其作出響應(yīng)。
語(yǔ)言的分布最初是從訓(xùn)練樣本的語(yǔ)料庫(kù)中學(xué)習(xí)到的,其中不可避免地包含錯(cuò)誤和半真半假的陳述。然而,我們表明,即使訓(xùn)練數(shù)據(jù)沒(méi)有錯(cuò)誤,語(yǔ)言模型訓(xùn)練期間優(yōu)化的目標(biāo)也會(huì)導(dǎo)致生成錯(cuò)誤。對(duì)于包含不同程度錯(cuò)誤的現(xiàn)實(shí)訓(xùn)練數(shù)據(jù),人們可能會(huì)預(yù)期錯(cuò)誤率甚至更高。因此,我們的錯(cuò)誤下界適用于更現(xiàn)實(shí)的場(chǎng)景,正如傳統(tǒng)的計(jì)算學(xué)習(xí)理論一樣(Kearns 和 Vazirani, 1994)。
我們的錯(cuò)誤分析方法具有普適性,但對(duì)幻聽現(xiàn)象具有特定啟示。該方法廣泛適用,包括推理模型和搜索檢索型語(yǔ)言模型,且分析過(guò)程不依賴于相鄰詞預(yù)測(cè)或基于Transformer的神經(jīng)網(wǎng)絡(luò)特性。 我們僅關(guān)注現(xiàn)代訓(xùn)練范式中的兩個(gè)階段:預(yù)訓(xùn)練和后訓(xùn)練,具體將在下文闡述。針對(duì)幻聽現(xiàn)象, 現(xiàn)有分類體系(Maynez等人,2020;Ji等人,2023)通常會(huì)進(jìn)一步區(qū)分與用戶提示內(nèi)容存在矛盾的 內(nèi)在幻聽現(xiàn)象,例如:
DEEPSEEK里有多少個(gè)D?如果知道的話,請(qǐng)直接說(shuō)出數(shù)字,不要多說(shuō)。
DeepSeek-V3 在十次獨(dú)立試驗(yàn)中返回了“2”或“3”;Meta AI 和 Claude 3.7 Sonnet2 表現(xiàn)類似,包括“6”和“7”這樣大的答案。我們的理論也闡明了外在幻覺(jué),即與訓(xùn)練數(shù)據(jù)或外部現(xiàn)實(shí)相矛盾的幻覺(jué)。
1.1、預(yù)訓(xùn)練導(dǎo)致的錯(cuò)誤
在預(yù)訓(xùn)練期間,一個(gè)基礎(chǔ)模型學(xué)習(xí)大型文本語(yǔ)料庫(kù)中的語(yǔ)言分布。我們表明,即使使用無(wú)錯(cuò)誤的訓(xùn)練數(shù)據(jù),預(yù)訓(xùn)練期間最小化的統(tǒng)計(jì)目標(biāo)也會(huì)導(dǎo)致生成錯(cuò)誤的語(yǔ)言模型。證明這一點(diǎn)并非易事,因?yàn)橛行┠P筒粫?huì)出錯(cuò),例如總是輸出“我不知道”(IDK)的模型,或者只是記憶并復(fù)述無(wú)錯(cuò)誤語(yǔ)料庫(kù)的模型。我們的分析解釋了預(yù)訓(xùn)練后應(yīng)該預(yù)期哪些類型的錯(cuò)誤。
為此,我們將其與二元分類聯(lián)系起來(lái)。考慮“這是一個(gè)有效的語(yǔ)言模型輸出嗎?”這類問(wèn)題。生成有效輸出在某種意義上比回答這些是/否問(wèn)題更難,因?yàn)樯呻[含地需要對(duì)每個(gè)候選回答回答“這有效嗎”。形式上,我們考慮“是否有效”(Is-It-Valid, IIV)二元分類問(wèn)題,其訓(xùn)練集包含大量回答,每個(gè)回答都被標(biāo)記為有效(+)或錯(cuò)誤。

?圖1:Is-It-Valid需要學(xué)習(xí)使用標(biāo)記±示例來(lái)識(shí)別有效的生成(左)。分類器(虛線)可能在某些概念上是準(zhǔn)確 的,如拼寫(頂部) ,但錯(cuò)誤通常由于糟糕的模型(中間)或沒(méi)有模式的數(shù)據(jù)中的任意事實(shí)(底部)而產(chǎn)生。
(—) 如圖1所示,在這個(gè)監(jiān)督學(xué)習(xí)問(wèn)題中,訓(xùn)練集和測(cè)試集的數(shù)據(jù)樣本均為50/50混合:包含已標(biāo) 注為+ 的合法樣本(即預(yù)訓(xùn)練數(shù)據(jù),因?yàn)槲覀兗僭O(shè)其有效性), 以及ε標(biāo)注為— 的隨機(jī)錯(cuò)誤樣本。 我們展示了如何將任何語(yǔ)言模型用作獨(dú)立變量無(wú)關(guān)(IIV)分類器,進(jìn)而建立生成性錯(cuò)誤(如幻覺(jué) 現(xiàn)象)與IIV誤分類率之間的數(shù)學(xué)關(guān)系:
(總錯(cuò)誤率)≥2與(IIV錯(cuò)誤分類率)。
語(yǔ)言模型能有效避免拼寫錯(cuò)誤等多數(shù)類型錯(cuò)誤,但并非所有錯(cuò)誤都屬于人為臆想。從錯(cuò)誤分類(IIV)到生成偏差的轉(zhuǎn)化過(guò)程揭示了生成性錯(cuò)誤的統(tǒng)計(jì)學(xué)本質(zhì)。分析表明預(yù)訓(xùn)練直接導(dǎo)致了這些 錯(cuò)誤,同時(shí)證明導(dǎo)致二分類錯(cuò)誤的統(tǒng)計(jì)因素在語(yǔ)言模型錯(cuò)誤中同樣適用。數(shù)十年研究已闡明錯(cuò)誤 分類的多維特性(多明戈斯,2012)。
圖1(右)直觀呈現(xiàn)了這些因素:頂部為可區(qū)分?jǐn)?shù)據(jù)的精準(zhǔn) 分類, 中部是圓形區(qū)域線性分隔模型效果欠佳,底部則無(wú)明顯規(guī)律可循。第3.3節(jié)分析了若干因 素,包括數(shù)據(jù)無(wú)規(guī)律時(shí)的認(rèn)知不確定性典型場(chǎng)景。
這一簡(jiǎn)化方法將先前涵蓋不同類型事實(shí)的研究串聯(lián)起來(lái)。例如,卡萊和文帕拉( 2024) 曾研究過(guò)數(shù)據(jù)中不存在可學(xué)習(xí)模式的任意事實(shí)特例,類似于早期的生日幻覺(jué)案例。我們展示了IIV簡(jiǎn)化方 法如何涵蓋這種情況,并重現(xiàn)了他們提出的理論邊界——經(jīng)過(guò)預(yù)訓(xùn)練后,幻覺(jué)率至少應(yīng)達(dá)到訓(xùn)練 數(shù)據(jù)中出現(xiàn)過(guò)一次的事實(shí)比例。
舉例來(lái)說(shuō),如果預(yù)訓(xùn)練數(shù)據(jù)中有20%的生日事實(shí)恰好出現(xiàn)一次,那 么基礎(chǔ)模型預(yù)計(jì)會(huì)對(duì)至少20%的生日事實(shí)產(chǎn)生幻覺(jué)。事實(shí)上,我們的分析強(qiáng)化了他們的結(jié)論,將其擴(kuò)展到包含提示詞和IDK回復(fù)這兩個(gè)幻覺(jué)的關(guān)鍵要素。
1.2、為何幻覺(jué)在后訓(xùn)練中持續(xù)存在
第二階段(后訓(xùn)練階段)旨在優(yōu)化基礎(chǔ)模型,主要目標(biāo)是減少幻覺(jué)現(xiàn)象。與預(yù)訓(xùn)練階段對(duì)錯(cuò)誤的廣泛分析不同,我們針對(duì)后訓(xùn)練階段的重點(diǎn)在于探究過(guò)度自信型幻覺(jué)的產(chǎn)生機(jī)制——即為何會(huì)出現(xiàn) 信息遺漏或表達(dá)不確定性(如IDK)的情況。我們從社會(huì)技術(shù)角度解析了后訓(xùn)練階段幻覺(jué)現(xiàn)象持續(xù) 存在的原因,并探討了該領(lǐng)域如何有效抑制此類現(xiàn)象。
舉個(gè)類比,人類偶爾也會(huì)編造看似合理的答案。比如學(xué)生在選擇題考試時(shí)會(huì)隨意猜測(cè),甚至在筆試中裝模作樣地提交看似合理卻缺乏信心的答案。語(yǔ)言模型的評(píng)估也采用類似的測(cè)試方式。在這兩種情境下,當(dāng)不確定時(shí)選擇猜測(cè),在二元0-1評(píng)分體系中能獲得最高預(yù)期分?jǐn)?shù)——正確答案得1 分,空白或IDK(不知道)得零分。而裝模作樣則多表現(xiàn)為過(guò)度自信和具體化表達(dá),比如在日期類 問(wèn)題中用“9月30日”代替“秋季某時(shí)” 。許多語(yǔ)言模型評(píng)估標(biāo)準(zhǔn)模仿標(biāo)準(zhǔn)化考試,采用準(zhǔn)確率或 通過(guò)率等二元指標(biāo)。因此,針對(duì)這些標(biāo)準(zhǔn)優(yōu)化模型反而可能催生虛假自信。人類在現(xiàn)實(shí)中學(xué)到表達(dá) 不確定性的價(jià)值,這種能力是在跌倒中學(xué)到的。反觀語(yǔ)言模型,其評(píng)估主要依賴懲罰不確定性的考 試,因此始終處于“應(yīng)試模式” 。簡(jiǎn)而言之,大多數(shù)評(píng)估標(biāo)準(zhǔn)并不一致。
我們并非首個(gè)意識(shí)到二元評(píng)分機(jī)制無(wú)法準(zhǔn)確衡量幻覺(jué)現(xiàn)象的研究者。但此前關(guān)于幻覺(jué)評(píng)估的研究大多執(zhí)著于追求難以捉摸的“完美幻覺(jué)評(píng)估標(biāo)準(zhǔn)” 。在第4節(jié)中,我們認(rèn)為這種做法并不充分。 我們觀察到現(xiàn)有主要評(píng)估體系過(guò)度懲罰不確定性表達(dá),根本癥結(jié)在于存在大量不一致的評(píng)估結(jié) 果 。假設(shè)模型A是一個(gè)能正確傳達(dá)不確定性且從未產(chǎn)生過(guò)幻覺(jué)的對(duì)齊模型;而模型B與之類似,但 不同之處在于它從不表明不確定性,每次不確定時(shí)都選擇“ 隨機(jī)猜測(cè)” 。在當(dāng)前主流基準(zhǔn)測(cè)試采用 的0-1評(píng)分體系下,模型B的表現(xiàn)將超越模型A 。這種機(jī)制導(dǎo)致了對(duì)不確定性的過(guò)度懲罰和棄用現(xiàn)象 形成“流行病式”蔓延,我們認(rèn)為僅靠少量幻覺(jué)評(píng)估數(shù)據(jù)顯然不夠充分。必須調(diào)整現(xiàn)有的主要評(píng)估 體系,避免在存在不確定性時(shí)對(duì)棄用行為進(jìn)行懲罰性扣分。
研究貢獻(xiàn)。我們揭示了幻聽現(xiàn)象的主要統(tǒng)計(jì)學(xué)驅(qū)動(dòng)因素,從其在預(yù)訓(xùn)練階段的形成機(jī)制到訓(xùn)練后持續(xù)存在的深層原因。通過(guò)建立監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之間的新關(guān)聯(lián),我們破解了該現(xiàn)象的起源之謎——即使訓(xùn)練數(shù)據(jù)包含IDK(干擾項(xiàng))時(shí)亦然。盡管學(xué)界對(duì)此已有大量研究,但幻聽現(xiàn)象的頑固 性最終被歸因于:大多數(shù)基礎(chǔ)評(píng)估體系會(huì)獎(jiǎng)勵(lì)類似幻聽的猜測(cè)行為。我們提出了對(duì)現(xiàn)有評(píng)估體系進(jìn) 行統(tǒng)計(jì)學(xué)優(yōu)化的改進(jìn)方案,為有效緩解這一現(xiàn)象開辟了新路徑。
2、相關(guān)工作
據(jù)我們所知,本文提出的從監(jiān)督學(xué)習(xí)(二元分類)到無(wú)監(jiān)督學(xué)習(xí)(密度估計(jì)或自監(jiān)督學(xué)習(xí))的降維方法具有創(chuàng)新性。不過(guò),這種在學(xué)習(xí)問(wèn)題間建立降維關(guān)系的通用方法本身已是成熟技術(shù),常用于證明不同問(wèn)題的難度存在層級(jí)關(guān)系(參見貝格爾齊默等人2016年的研究)。
許多調(diào)查和研究探索了語(yǔ)言模型中幻覺(jué)的根本原因。Sun 等 (2025) 引用了諸如模型過(guò)度自信(Yin 等, 2023)、解碼隨機(jī)性(Lee 等, 2022)、滾雪球效應(yīng)(Zhang 等, 2023)、長(zhǎng)尾訓(xùn)練樣本(Sun 等, 2023)、誤導(dǎo)性的對(duì)齊訓(xùn)練(Wei 等, 2023)、虛假相關(guān)性(Li 等, 2022)、曝光偏差(Bengio 等, 2015)、逆轉(zhuǎn)詛咒(Berglund 等, 2024)和上下文劫持(Jeong, 2024)等因素。類似的錯(cuò)誤來(lái)源在更廣泛的機(jī)器學(xué)習(xí)和統(tǒng)計(jì)環(huán)境中早已被研究(Russell 和 Norvig, 2020)。
與之關(guān)系最密切的理論工作是由Kalai和Vempala( 2024)完成的,我們證明了這一點(diǎn)。
這是我們的理論框架中的一個(gè)特例。研究者們將圖靈缺失質(zhì)量估計(jì)( Good ,1953)與幻覺(jué)現(xiàn)象聯(lián) 系起來(lái),這一發(fā)現(xiàn)啟發(fā)了定理3的提出。不過(guò),該研究未涉及不確定性表達(dá)式(如IDK) 、與監(jiān)督學(xué) 習(xí)的關(guān)聯(lián)、訓(xùn)練后的模型調(diào)整,且其模型未包含提示信息。漢內(nèi)克團(tuán)隊(duì)( 2018)分析了一種交互 式學(xué)習(xí)算法,該算法通過(guò)向有效性仲裁者(如人類)發(fā)起查詢, 以無(wú)偏見方式訓(xùn)練語(yǔ)言模型,從 而最小化幻覺(jué)現(xiàn)象。他們的方法在統(tǒng)計(jì)效率上表現(xiàn)優(yōu)異,所需數(shù)據(jù)量合理,但計(jì)算效率欠佳。近 期其他理論研究(卡拉瓦西斯團(tuán)隊(duì),2025;克萊因伯格與穆萊納坦,2024)則系統(tǒng)闡述了一致性 (避免無(wú)效輸出)與廣度(生成多樣化、語(yǔ)言豐富的內(nèi)容)之間的內(nèi)在權(quán)衡。這些工作表明,對(duì) 于廣泛的語(yǔ)言類別,任何泛化超出其訓(xùn)練數(shù)據(jù)的模型要么會(huì)產(chǎn)生無(wú)效輸出,要么會(huì)遭受模式崩潰,無(wú)法產(chǎn)生完整的有效響應(yīng)。
幾種后訓(xùn)練技術(shù)——例如人類反饋強(qiáng)化學(xué)習(xí)(RLHF)(Ouyang 等, 2022)、AI 反饋強(qiáng)化學(xué)習(xí)(RLAIF)(Bai 等, 2022)和直接偏好優(yōu)化(DPO)(Rafailov 等, 2023)——已被證明可以減少幻覺(jué),包括陰謀論和常見誤解。Gekhman 等 (2024) 表明,對(duì)新信息的簡(jiǎn)單微調(diào)最初會(huì)降低幻覺(jué)率,但隨后又會(huì)增加。此外,已經(jīng)證明自然語(yǔ)言查詢和內(nèi)部模型激活都編碼了關(guān)于事實(shí)準(zhǔn)確性和模型不確定性的預(yù)測(cè)信號(hào)(例如,Kadavath 等, 2022)。正如我們?cè)谝灾杏懻摰模P蛯?duì)語(yǔ)義相關(guān)查詢的回答的不一致性也可以用來(lái)檢測(cè)或緩解幻覺(jué)(Manakul 等, 2023; Xue 等, 2025; Agrawal 等, 2024)。
目前已有諸多方法被證實(shí)能有效緩解幻覺(jué)問(wèn)題,例如可參考吉等人(2023)和天等人(2024)的綜述研究。在評(píng)估體系方面,近期已涌現(xiàn)出多個(gè)綜合性基準(zhǔn)測(cè)試平臺(tái)和排行榜(如濱等人2025;洪等人2024)。然而針對(duì)這些技術(shù)應(yīng)用障礙的研究仍顯不足。例如《2025人工智能指數(shù)報(bào)告》(馬斯萊等人,2025)就指出,幻覺(jué)測(cè)試平臺(tái)“始終未能在人工智能領(lǐng)域獲得廣泛認(rèn)可”。
除了確定性的二元表達(dá)之外,還提出了更細(xì)微的語(yǔ)言結(jié)構(gòu)來(lái)傳達(dá)不確定性的程度(Mielke 等, 2022; Lin 等, 2022a; Damani 等, 2025)。此外,語(yǔ)用學(xué)領(lǐng)域——研究意義如何由語(yǔ)境塑造——對(duì)于理解和改進(jìn)語(yǔ)言模型傳遞信息的方式具有越來(lái)越重要的意義(Ma等, 2025)。
3、預(yù)訓(xùn)練錯(cuò)誤
預(yù)訓(xùn)練生成的基礎(chǔ)語(yǔ)言模型?p能夠近似于從訓(xùn)練數(shù)據(jù)分布中抽取的文本分布p 。這正是無(wú)監(jiān)督學(xué)習(xí) 中的經(jīng)典“密度估計(jì)” 問(wèn)題,其中密度簡(jiǎn)單來(lái)說(shuō)就是對(duì)數(shù)據(jù)的概率分布。對(duì)于語(yǔ)言模型而言,當(dāng) 包含文本或多模態(tài)輸入時(shí),該分布則表現(xiàn)為對(duì)這些輸入的分布。
要證明基礎(chǔ)模型存在錯(cuò)誤,關(guān)鍵難點(diǎn)在于多數(shù)語(yǔ)言模型本身不會(huì)出錯(cuò)。退化模型始終輸出IDK (假設(shè)IDK本身不算錯(cuò)誤),這種模型自然也不會(huì)產(chǎn)生誤差。同理,若訓(xùn)練數(shù)據(jù)完全無(wú)誤,那個(gè)簡(jiǎn) 單到直接復(fù)現(xiàn)隨機(jī)訓(xùn)練樣本文本的基礎(chǔ)模型同樣不會(huì)出錯(cuò)。但這些模型都未能實(shí)現(xiàn)統(tǒng)計(jì)語(yǔ)言建模的 核心目標(biāo)——密度估計(jì)。而最優(yōu)基礎(chǔ)模型? p=p(即與訓(xùn)練分布完全匹配的模型)雖然也能避免錯(cuò) 誤,但這類模型卻存在明顯缺陷,需要大量訓(xùn)練數(shù)據(jù)。盡管如此,我們證明了訓(xùn)練良好的基礎(chǔ)模型仍然會(huì)產(chǎn)生某些類型的錯(cuò)誤。
我們的分析表明,生成有效輸出(即避免錯(cuò)誤)比判斷輸出有效性更具挑戰(zhàn)性。這一認(rèn)知差異使我們能夠運(yùn)用計(jì)算學(xué)習(xí)理論的視角——該理論將錯(cuò)誤視為可預(yù)期且可理解的現(xiàn)象——來(lái)研究生 成模型中的錯(cuò)誤機(jī)制。語(yǔ)言模型最初被定義為對(duì)文本的概率分布,隨后會(huì)引入提示詞(參見第3.2 節(jié) ) ,這兩種設(shè)置都基于相同的直覺(jué)基礎(chǔ)。無(wú)提示詞的示例包括圖1所示的生日陳述,而帶提示詞 的模型則可能被用于查詢特定個(gè)體的生日。
這不僅僅是自動(dòng)補(bǔ)全的問(wèn)題。我們的分析適用于一般的密度估計(jì)方法,而不僅限于“ 下一個(gè)單詞 預(yù)測(cè)器”——盡管許多語(yǔ)言模型確實(shí)通過(guò) 自監(jiān)督學(xué)習(xí),根據(jù)前序詞匯來(lái)預(yù)測(cè)每個(gè)單詞。人們很容 易將語(yǔ)言模型的幻覺(jué)現(xiàn)象歸咎于前綴選擇不當(dāng)(例如“亞當(dāng)·卡拉伊出生于” ),認(rèn)為這是由于模 型無(wú)法提供有效補(bǔ)全所致。然而從純粹統(tǒng)計(jì)學(xué)的角度來(lái)看(不考慮計(jì)算問(wèn)題),語(yǔ)言模型的自動(dòng)補(bǔ) 全特性并不比人類說(shuō)話者逐詞生成語(yǔ)言的事實(shí)更具顯著性。我們的研究表明,錯(cuò)誤的根源恰恰在于 模型正在擬合底層語(yǔ)言分布,盡管具體架構(gòu)設(shè)計(jì)可能引入額外誤差。
3.1、無(wú)需提示即可減少
在沒(méi)有提示的情況下,基礎(chǔ)模型^p是定義在集合X上的概率分布。如前所述,每個(gè)樣本x∈X都代 表一個(gè)“合理” 的字符串,例如文檔。5這些樣本X= ε U V被劃分為錯(cuò)誤樣本ε和有效樣本V ,二 者互不相交且非空ε, V 。基礎(chǔ)模型^p的錯(cuò)誤率表示為:

?訓(xùn)練數(shù)據(jù)被假定來(lái)自無(wú)噪聲的訓(xùn)練分布p(X ),即p ( ε) = 0 。正如所討論的,對(duì)于存在噪聲的 訓(xùn)練數(shù)據(jù)和部分正確的陳述,我們可能會(huì)預(yù)期比我們的下界更高的錯(cuò)誤率。
我們現(xiàn)在將引言中介紹的IIV二分類問(wèn)題形式化。IIV由待學(xué)習(xí)的目標(biāo)函數(shù)f:X→ { ? , + }和樣 本分布D X(來(lái)自p和均勻隨機(jī)誤差的樣本的50/50混合)定義:

我們的分析將錯(cuò)誤率err=^ p ( ε ) 的下限與IIV前面提到的錯(cuò)誤分類率erriiv表示為:

因此,在我們的降維中,通過(guò)將基礎(chǔ)模型的概率在某個(gè)閾值1/|ε|處進(jìn)行閾值處理,將基礎(chǔ)模型用 作IIV分類器。需要注意的是,這類概率p(x)通常可以高效計(jì)算(盡管有效計(jì)算對(duì)于下界具有意義并非必要)。
推論1. 對(duì)于任何訓(xùn)練分布p ,只要p( V )= 1 ,以及任何基礎(chǔ)模型^ p,
for err, erriiv from Eqs. (1) and (2), and δ := | (A) — p(A)| for A := {x ∈ X ?| (x) > 1/|ε|} .
由于這種關(guān)系適用于任何基礎(chǔ)模型^ p ,因此可以立即推導(dǎo)出所有基礎(chǔ)模型都會(huì)在本質(zhì)上無(wú)法 被遺忘的IIV事實(shí)(例如訓(xùn)練數(shù)據(jù)中缺失的生日信息)上出現(xiàn)誤差,此時(shí)err_iiv必然較大,而δ 和| V|/|ε|的比值較小(例如在V 中 ,每個(gè)用戶的錯(cuò)誤生日聲明 ε 數(shù)量是正確聲明的364倍 ,再加上 IDK) 。上述推論作為定理1的一個(gè)特例自然成立,該定理可推廣至包含提示詞的更普遍場(chǎng)景。定理 2后續(xù)將利用這一通用結(jié)果為直觀的特例提供下界。定理3和4涉及較小的|ε| ,例如|ε| = 1的True/Fa- lse問(wèn)題。上述邊界中的常數(shù)2相對(duì)緊致:當(dāng)|ε|較大δ 時(shí),針對(duì)不可遺忘概念,err_iiv可能接近1/2 , 而err ≤ 1則為2 。推論1還表明err_iiv ≤1 / 2。
幻覺(jué)錯(cuò)誤分析。在將錯(cuò)誤分析應(yīng)用于幻覺(jué)時(shí),可將ε 生成內(nèi)容中包含(一個(gè)或多個(gè))合理錯(cuò)誤的那 部分視為有效樣本集。值得注意的是,幻覺(jué)的另一種常見定義是與訓(xùn)練數(shù)據(jù)無(wú)關(guān)的生成內(nèi)容(或 稱為提示無(wú)關(guān)生成) 。值得慶幸的是,上述下限同樣適用于這種定義——因?yàn)槲覀兗僭O(shè)僅使用有 效訓(xùn)練數(shù)據(jù),即生成的事實(shí)性錯(cuò)誤不可能基于事實(shí)正確的訓(xùn)練數(shù)據(jù)。
校準(zhǔn)。現(xiàn)在我們論證為何|δ|是一個(gè)在預(yù)訓(xùn)練后校準(zhǔn)(失)程度較小的度量指標(biāo)。需要注意的是, 在完全不了解語(yǔ)言的情況下,只需采用均勻分布^ p(x)= 1 /|X |即可使δ = 0 ,因此δ = 0并不需要 p =^ p 。審計(jì)人員δ 只需通過(guò)比較滿足^ p(x)> 1 /|ε|與^ p(^ x ) > 1 /|ε|的響應(yīng)比例,就能輕松評(píng) 估訓(xùn)練樣本集x ~p和合成生成樣本^ x ~^ p的一致性。受Dawid( 1982)研究啟發(fā),我們可以類比天 氣預(yù)報(bào)系統(tǒng)每日預(yù)測(cè)降雨概率的情況。其基本校準(zhǔn)要求在于預(yù)測(cè)概率的平均值是否與實(shí)際降雨概率 的平均值相匹配。人們還可以要求這兩個(gè)值在預(yù)報(bào)> t為某個(gè)閾值t∈ [0 , 1]的日子里相匹配。戴維(1982)提出了更嚴(yán)格的要求:對(duì)于每個(gè)t∈ [0 , 1] ,在預(yù)測(cè)會(huì)下雨的天數(shù)中,t應(yīng)該有t比例的時(shí)間。
這里有一個(gè)特別簡(jiǎn)單的理由來(lái)解釋為什么對(duì)于標(biāo)準(zhǔn)的預(yù)訓(xùn)練交叉熵目標(biāo)函數(shù),δ通常是小的。

考慮將正標(biāo)簽樣本的概率按因子s > 0重新縮放并歸一化:


圖2:GPT-4在強(qiáng)化學(xué)習(xí)前(左)和強(qiáng)化學(xué)習(xí)后(右) 的校準(zhǔn)直方圖( OpenAI ,2023a ,圖8 ,經(jīng)授權(quán)轉(zhuǎn) 載)。這些圖表針對(duì)多項(xiàng)選擇題查詢,其中合理答案僅為A 、B 、C或D 。預(yù)訓(xùn)練模型的校準(zhǔn)效果良好。
然后,一個(gè)簡(jiǎn)單的計(jì)算表明,δ 是損失相對(duì)于縮放因子s的導(dǎo)數(shù)的大小,評(píng)估在s= 1處:

如果δ不等于0 ,然后通過(guò)某個(gè)s進(jìn)行重新縮放 1會(huì)降低損失值,因此損失并非處于局部最小值。對(duì)于任何具備足夠 ? 強(qiáng)大能力來(lái)近似這種簡(jiǎn)單縮放的語(yǔ)言模型類別而言,局部?jī)?yōu)化應(yīng)該會(huì)產(chǎn)生較小的影響δ 。需要注意的是δ , 僅在 單一閾值t = 1 /|ε|處定義的校準(zhǔn)損失,其有效性弱于諸如期望校準(zhǔn)誤差(ECE)等概念——后者通過(guò)整合不同閾 值下的數(shù)據(jù)來(lái)增強(qiáng)準(zhǔn)確性t。
幻覺(jué)現(xiàn)象在基礎(chǔ)模型中不可避免僅是特例。眾多學(xué)者指出,幻覺(jué)現(xiàn)象是必然存在的(瓊斯, 2025;萊弗,2024;徐等人,2024)。然而,通過(guò)使用問(wèn)答數(shù)據(jù)庫(kù)和計(jì)算器,我們完全能夠輕松 構(gòu)建不出幻覺(jué)的模型——這類模型不僅能回答諸如“黃金的化學(xué)符號(hào)是什么?”這類固定問(wèn)題, 還能進(jìn)行“3+8”這樣規(guī)范的數(shù)學(xué)運(yùn)算,否則直接輸出“ 不知道” 。更值得注意的是,推論1所示 的錯(cuò)誤下限表明:不出現(xiàn)錯(cuò)誤的語(yǔ)言模型必須經(jīng)過(guò)校準(zhǔn),即δ必須是大規(guī)模模型。我們的推導(dǎo)過(guò)程 證實(shí),校準(zhǔn)——進(jìn)而導(dǎo)致的錯(cuò)誤——正是標(biāo)準(zhǔn)交叉熵目標(biāo)函數(shù)的必然產(chǎn)物。實(shí)證研究(圖2)顯 示,與可能偏離交叉熵、轉(zhuǎn)而采用強(qiáng)化學(xué)習(xí)的后訓(xùn)練模型不同,基礎(chǔ)模型往往被發(fā)現(xiàn)處于校準(zhǔn)狀態(tài)。
3.2、通過(guò)提示減少
從現(xiàn)在開始,我們將第3.1節(jié)的設(shè)定推廣到包含從提示詞分布?中抽取的提示詞(上下文)c?∈c?。現(xiàn)在每個(gè)樣?本x=(c?,r)都由一個(gè)提示詞c和一個(gè)合理的響應(yīng)r組成。上述分析對(duì)應(yīng)于一個(gè)特殊案例,其中μ分配概率為1。
對(duì)于給定的提示c?∈C,令Vc ?:={r|(c,r)∈V}為有效響應(yīng),εc ?:={r|(c,r)∈ε}為錯(cuò)誤響應(yīng)。此時(shí)訓(xùn)練分布和基礎(chǔ)模型將轉(zhuǎn)化為條件響應(yīng)分布p(r| c),^?p(r|?c)。為便于符號(hào)表示,我們將這些擴(kuò)展為關(guān)于X的聯(lián)合分布:p(c,r):=?μ(c)p(r| c),而^?p(c,r):=?μ(c)^?p(r| c),使得?err=^?p ?(ε)?=?Σ(c,r)∈εμ(c)^?p(r| c)且p(ε)=0。
訓(xùn)練數(shù)據(jù)的分布示例因此對(duì)應(yīng)有效的“對(duì)話”?,例如蒸餾法中的情況(江等人,2023;安南德等人,2023)。雖然假設(shè)訓(xùn)練數(shù)據(jù)包含從同一提示分布中抽取的模型對(duì)話并不現(xiàn)實(shí),但當(dāng)這一假?設(shè)不成立時(shí),錯(cuò)誤率可能會(huì)更高。帶有提示的獨(dú)立同分布問(wèn)題具有相同的目標(biāo)函數(shù)f(x):= +?當(dāng)?且僅當(dāng)x?∈V?,但廣義分布D以相等概率選擇x?~p或x?=(c?,r),其中c ~μ和r∈εc是均勻隨機(jī)的。?最后,分類器^?f(c?,r)現(xiàn)在+?當(dāng)且僅當(dāng)^?p(r|c)>1/min?c|εc|?。因此,推論1顯然是該問(wèn)題的一個(gè)特例。
定理1.?對(duì)于任何訓(xùn)練分布p ,只要p ( V )= 1 , 以及任何基礎(chǔ)模型^ p,

其中δ?:=|^p?(A ?)—p?(A ?)|對(duì)于A:={?(c,r)∈X |?^p?(r| c)>1?/min?c ?|ε?c|}。
再次進(jìn)行重縮放^??ps(r|c)(?按prompt?進(jìn)行歸一化,仍使用單個(gè)參數(shù)s??)?

3.3、基礎(chǔ)模型的誤差因素
數(shù)十年的研究已揭示了導(dǎo)致誤分類(二元分類錯(cuò)誤)的統(tǒng)計(jì)因素。我們可以利用這些已有認(rèn)知,列?舉幻覺(jué)和其他生成性錯(cuò)誤背后的因素,包括:統(tǒng)計(jì)復(fù)雜性(如生日預(yù)測(cè),第3.3.1節(jié));模型缺陷?(如字母計(jì)數(shù),第3.3.2節(jié));以及GIGO等其他因素(如陰謀論,第3.4節(jié))。
3.3.1、任意事實(shí)幻覺(jué)
當(dāng)無(wú)法用簡(jiǎn)潔的模式解釋目標(biāo)函數(shù)時(shí),就會(huì)產(chǎn)生認(rèn)知不確定性,這意味著訓(xùn)練數(shù)據(jù)中缺乏必要的?知識(shí)。瓦普尼克-切爾沃寧基斯維度(Vapnik和Chervonenkis,1971)VC(F)指標(biāo)描述了以高概?率學(xué)習(xí)函數(shù)族F的最壞情況所需樣本數(shù)量f:X→{—,?+?}?。具有高VC(F)維數(shù)的函數(shù)族可能需?要數(shù)量級(jí)以萬(wàn)計(jì)的樣本才能學(xué)習(xí)。我們研究高VC維數(shù)的一個(gè)自然特例:隨機(jī)任意事實(shí)。本節(jié)特別?關(guān)注有效響應(yīng)(非IDK)?,這些響應(yīng)在不同提示之間是隨機(jī)且獨(dú)立的。
定義1(任意事實(shí))。下列要素固定不變:任意提示分布 μ(c) 、IDK響應(yīng),以及針對(duì)每個(gè)提示c :一個(gè)響應(yīng)集合Rc和一個(gè)回答概率αc∈[0 ,1]。對(duì)于每個(gè)c,從Rc中均勻隨機(jī)選擇一個(gè)正確答案ac∈Rc。最后,對(duì)于每個(gè)c∈C,有p(ac|c)=αc且p(IDK|c)=1—αc。因此εc= Rc\{a c },且 V c = { ac,IDK }。
我們假設(shè),對(duì)于任何給定的事實(shí),都存在一種單一的書寫方式,可以像主生日示例中指定的格式那樣進(jìn)行 書寫。但是,我們?cè)俅沃赋觯藗兛赡芷谕词巩?dāng)涉及固定格式的生日時(shí),?由于存在多種表述方式導(dǎo)致的幻覺(jué)現(xiàn)象?,|εc|= 364?。而那些生日常被?提及的知名人士,其生日信息往往呈現(xiàn)高頻出現(xiàn)μ(c)。例如愛因斯坦這類著名人物的生日會(huì)多?次出現(xiàn),而其他人的生日可能僅在訃告中出現(xiàn)一次。大型語(yǔ)言模型在處理高頻引用的事實(shí)時(shí)(如?愛因斯坦的生日或其博士論文題目)很少出錯(cuò)。
我們對(duì)幻覺(jué)的下限是基于提示在訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的比例,忽略IDKs。
定義2(單例率)若一個(gè)即時(shí)c∈C在N個(gè)訓(xùn)練數(shù)據(jù)中恰好出現(xiàn)一次,則稱其為單例((c(i) ,r(i))。1 ? 不棄權(quán),即,|{i : c( i ?)= c Λ r ( i ?) IDK}| = 1 。令S≤C表示單點(diǎn)集和

表示訓(xùn)練單例的比例。
單例率理論源自艾倫·圖靈提出的經(jīng)典“缺失質(zhì)量”估計(jì)法(?Good?,1953)。該方法通過(guò)統(tǒng)計(jì)?尚未在樣本中出現(xiàn)的分布結(jié)果所占概率,來(lái)估算未觀測(cè)事件的概率。具體而言,圖靈的估計(jì)值基?于樣本恰好出現(xiàn)一次的占比。直觀來(lái)說(shuō),單例事件就像一個(gè)風(fēng)向標(biāo),預(yù)示著后續(xù)采樣中可能發(fā)現(xiàn)?多少新奇結(jié)果——因此這些樣本的實(shí)際占比,就成為了整個(gè)分布中“缺失部分”?的概率估計(jì)。現(xiàn)?在我們來(lái)闡述任意事實(shí)的理論邊界。
定理2(任意事實(shí))。在任意事實(shí)模型中,任何接受N個(gè)訓(xùn)練樣本并輸出p的算法都滿足:在概率≥99%的情 況下,對(duì)于=〈ac∈C的集合以及這N個(gè)訓(xùn)練樣本:

此外,還存在一種輸出校準(zhǔn) ^ p ( δ = 0 ) 的高效算法,其以概率 ≥ 99%,

本文早期版本曾提出一個(gè)相關(guān)定理,但該定理忽略了提示和棄權(quán)行為(Kalai與Vempala?,2024)。證明過(guò)程詳見附錄B?。Miao與Kearns(2025)的后續(xù)研究對(duì)幻覺(jué)效應(yīng)、單例率及校準(zhǔn)問(wèn)題進(jìn)行了實(shí)證分析。
3.3.2、劣質(zhì)型號(hào)
當(dāng)基礎(chǔ)模型本身質(zhì)量欠佳時(shí),也可能導(dǎo)致誤分類現(xiàn)象,原因主要有兩種:(a)模型族無(wú)法準(zhǔn)確表征?概念(例如用線性分隔符近似圓形區(qū)域),或(b)模型族表達(dá)能力足夠強(qiáng),但模型本身并不合適。?不可知學(xué)習(xí)(Kearns等人,1994)通過(guò)定義給定分類器族G中任意分類器的最小錯(cuò)誤率來(lái)解決(a)種?情況g:X→{???,?+?}:

如果選項(xiàng)(G)較大,那么G中的任何分類器都會(huì)具有較高的誤分類率。在我們的案例中,給定一?個(gè)由θ∈?Θ?θ參數(shù)化^p的語(yǔ)言模型,考慮一系列基于閾值的語(yǔ)言模型分類器:

由此可立即得到定理1

當(dāng)每個(gè)上下文恰好有一個(gè)正確答案時(shí)(即標(biāo)準(zhǔn)的多項(xiàng)選擇,沒(méi)有IDK)?,校準(zhǔn)項(xiàng)可以被刪除,并且即使C= 2也可以達(dá)到邊界。
定理3(純多項(xiàng)選擇)。假設(shè)對(duì)于所有c∈C?,有|V?c ?|?=?1?,并令C= min?c ?|?εc ?|?+?1為選項(xiàng)數(shù)量。那么,

舉個(gè)栗子,經(jīng)典三元語(yǔ)法模型就是這么回事——每個(gè)詞都只看前兩個(gè)詞,也就是只有兩個(gè)詞的?上下文窗口。這種模型在八九十年代可是風(fēng)頭正勁,但經(jīng)常輸出不合語(yǔ)法的句子。舉個(gè)例子,看看下面這些對(duì)話:

推論2.?設(shè)μ在{c?1?,c?2}上是均勻的。那么任何三元模型的生成錯(cuò)誤率至少為1/2。
這由定理3得出,因?yàn)閷?duì)于三元模型,C?= 2且條件概率公式(G)=?1/2?。定理3和推論2的證明詳見附錄C?。雖然n元模型能夠捕捉更長(zhǎng)距離的依賴關(guān)系(當(dāng)n增大時(shí)),但其數(shù)據(jù)需求會(huì)隨n增長(zhǎng)呈指數(shù)級(jí)增長(zhǎng)。
現(xiàn)在我們重新審視引言中提到的字母計(jì)數(shù)示例。要了解這是模型缺陷的體現(xiàn),請(qǐng)注意DeepSeek-R?1推理模型能夠可靠地進(jìn)行字母計(jì)數(shù),例如,它生成了一個(gè)包含以下內(nèi)容的377個(gè)思維鏈:
讓我來(lái)解釋一下:?D-E-E-P-S-E-E-K。
第一個(gè)字母:D——一個(gè)D?。第二個(gè)字母:E——不是D?。第三個(gè)字母:E——不是D...
所以,D的數(shù)量是1。
在使用相似訓(xùn)練數(shù)據(jù)的情況下,這表明R1模型比DeepSeekV3模型更適合該任務(wù)。推理過(guò)程克服了?一個(gè)表征挑戰(zhàn):現(xiàn)代語(yǔ)言模型通過(guò)代幣(如D/EEP/SEE/K)而非單個(gè)字符來(lái)表示提示(DeepSeek-AI等人,2025)。
3.4、其他因素
錯(cuò)誤可能由多種因素的組合引起,包括上文討論的因素和其他因素。這里我們重點(diǎn)介紹其中幾個(gè)因素。
??計(jì)算復(fù)雜性難題。任何運(yùn)行在經(jīng)典計(jì)算機(jī)上的算法——即便是具備超人能力的AI系統(tǒng)——都?無(wú)法違背計(jì)算復(fù)雜性理論的定律。事實(shí)上,已有研究發(fā)現(xiàn)人工智能系統(tǒng)在計(jì)算復(fù)雜問(wèn)題上會(huì)?出現(xiàn)錯(cuò)誤(徐等人,2024)。附錄D2的觀察案例說(shuō)明了定理1如何應(yīng)用于此類難以解決的查詢問(wèn)題的c解密方式是什么??”,?而IDK(不知道)正是這類問(wèn)題的有效答案。
??分布偏移。二元分類中一個(gè)廣為人知的挑戰(zhàn)是訓(xùn)練集與測(cè)試集數(shù)據(jù)分布常出現(xiàn)偏差(奎?諾內(nèi) 羅-坎德拉等,2009;莫雷諾-托雷斯等,2012)。類似地,語(yǔ)言模型的錯(cuò)誤往往源于與訓(xùn)練?數(shù)據(jù)分布差異顯著的分布外(OOD)提示。例如“一磅羽毛和一磅鉛哪個(gè)更重?”這類問(wèn)題?在訓(xùn)練數(shù)據(jù)中可能并不常見,卻可能導(dǎo)致某些模型給出錯(cuò)誤答案。同理,在前文提到的字母?計(jì)數(shù)案例中,雖然推理模型能正確計(jì)數(shù)這一事實(shí)表明,但分布偏移可能是次要因素,而模型?本身性能欠佳才是主要成因。
??GIGO(垃圾進(jìn),垃圾出)。大型訓(xùn)練語(yǔ)料庫(kù)往往包含大量事實(shí)性錯(cuò)誤,這些錯(cuò)誤可能被基?礎(chǔ)模型復(fù)現(xiàn)。無(wú)論是分類任務(wù)還是預(yù)訓(xùn)練階段,GIGO的統(tǒng)計(jì)相似性都顯而易見,因此我們未?對(duì)其進(jìn)行正式分析。但需注意的是,在統(tǒng)計(jì)因素中識(shí)別GIGO至關(guān)重要——已有研究表明語(yǔ)?言模?型會(huì)?復(fù)制訓(xùn)練數(shù)據(jù)?中的錯(cuò)誤(林等人 ,2022b;利維等人 ,2021;阿爾伯等人 , 2025)。
GIGO還自然地引出了訓(xùn)練后的話題,這可以減少某些GIGO錯(cuò)誤,如常見的誤解和陰謀論(Ouyang等人,2022;OpenAI ,2023a;Costello等人,2024)?。下一節(jié)解釋了為什么一些幻覺(jué)會(huì)?持續(xù)存在——甚至可能被當(dāng)前的訓(xùn)練后流程加劇。
4、培訓(xùn)后和幻覺(jué)
訓(xùn)練后的模型應(yīng)當(dāng)從類似自動(dòng)補(bǔ)全模型的訓(xùn)練方式,轉(zhuǎn)向不再輸出確信不實(shí)內(nèi)容(除非在適當(dāng)情?況下,例如被要求創(chuàng)作虛構(gòu)作品時(shí))?。但我們認(rèn)為,要進(jìn)一步減少幻覺(jué)現(xiàn)象仍是一場(chǎng)艱難的攻堅(jiān)?戰(zhàn)——因?yàn)楝F(xiàn)有的評(píng)估標(biāo)準(zhǔn)和排行榜機(jī)制仍在強(qiáng)化某些類型的幻覺(jué)。因此我們需要探討如何打破?這種強(qiáng)化效應(yīng)。這本質(zhì)上是一個(gè)社會(huì)技術(shù)問(wèn)題:不僅需要改進(jìn)現(xiàn)有評(píng)估體系,更需讓這些改進(jìn)措?施被具有影響力的排行榜所采納。
4.1? ??評(píng)估如何加強(qiáng)幻覺(jué)
對(duì)語(yǔ)言模型的二元評(píng)價(jià)強(qiáng)加了一種錯(cuò)誤的非黑即白二分法,既不認(rèn)可表達(dá)不確定性的回答,也不給那些省略可疑細(xì)?節(jié)或要求澄清的回答加分。正如下文所述,諸如準(zhǔn)確率和通過(guò)率等指標(biāo),至今仍是該領(lǐng)域的主流標(biāo)準(zhǔn)。在二元評(píng)價(jià)體系下...
在評(píng)分機(jī)制中,棄權(quán)行為屬于次優(yōu)選擇。系統(tǒng)會(huì)對(duì)IDK型回答施加最嚴(yán)厲的懲罰,而過(guò)于自信的“最?佳猜測(cè)”則能獲得最優(yōu)評(píng)價(jià)。這種評(píng)分機(jī)制巧妙融合了兩大優(yōu)勢(shì):(a)語(yǔ)言模型輸出內(nèi)容的準(zhǔn)確率,?以及(b)回答的全面性。但關(guān)鍵在于,相較于(b)?,更重視(a)這一考量對(duì)于減少誤判至關(guān)重要。
對(duì)于任何給定的提示形式問(wèn)題,我們用Rc表示所有可能的正確答案(有效或錯(cuò)誤)集合,即{r | (c ,r) ∈X} 。此外,假設(shè)存在一組合理的棄答選項(xiàng)AcCRc(例如IDK) 。當(dāng)評(píng)分標(biāo)準(zhǔn)gc:Rc → R被 定義為二元評(píng)分標(biāo)準(zhǔn)時(shí) ,若滿足{gc(r)| r∈Rc} = { 0 , 1 }且對(duì)所有r∈Ac均有g(shù)c(r)= 0 。 問(wèn)題 由 (c,Rc,Ac,gc)定義,其中考官知曉c 、Rc 、Ac 。我們假設(shè)考官知道評(píng)分標(biāo)準(zhǔn)是二元的,但未 被告知正確答案(即gc(r)= 1)。考官對(duì)正確答案的信念可視為二元gc的后驗(yàn)分布pc 。對(duì)于任何 此類信念,最優(yōu)反應(yīng)都不是棄答。
觀察1: 設(shè)c為一個(gè)提示。對(duì)于二元分級(jí)器上的任何分布p c ,最優(yōu)響應(yīng)(s)并非棄權(quán),即,

雖然證明過(guò)程相當(dāng)簡(jiǎn)單(詳見附錄E)?,但觀察結(jié)果1表明現(xiàn)有評(píng)估體系可能需要調(diào)整?。附錄F中的簡(jiǎn)短元評(píng)估分析(表2)顯示,絕大多數(shù)主流評(píng)估采用二元評(píng)分機(jī)制。因此,當(dāng)主要評(píng)估體系?懲罰如實(shí)報(bào)告置信度與不確定性時(shí),單純?cè)黾踊糜X(jué)評(píng)估可能收效甚微。這并非否定現(xiàn)有幻覺(jué)評(píng)估研?究的價(jià)值,而是指出即便存在理想的幻覺(jué)評(píng)估標(biāo)準(zhǔn)和能如實(shí)反映置信度的理想訓(xùn)練后評(píng)估方法,由?于在絕大多數(shù)現(xiàn)有評(píng)估中表現(xiàn)欠佳,這些改進(jìn)仍可能被淹沒(méi)在數(shù)據(jù)噪音中。
4.2、顯性置信目標(biāo)
人類考試同樣多采用二元評(píng)分機(jī)制,人們?cè)缫岩庾R(shí)到這種機(jī)制也會(huì)助長(zhǎng)過(guò)度自信的虛張聲勢(shì)。當(dāng)然,?考試只是人類學(xué)習(xí)方式的一小部分——比如編造生日信息很快就會(huì)讓人難堪。不過(guò),包括印度JEE(聯(lián)?合入學(xué)考試)、NEET(國(guó)家統(tǒng)一入學(xué)考試)、GATE(研究生入學(xué)考試)、美國(guó)數(shù)學(xué)協(xié)會(huì)AMC考試,?以及美國(guó)早期的SAT(大學(xué)申請(qǐng)考試)、AP(大學(xué)先修課程)和GRE(研究生入學(xué)考試)等在內(nèi)的標(biāo)?準(zhǔn)化全國(guó)性考試,都曾采用或仍在采用答錯(cuò)扣分(或等效的棄考部分加分)?的評(píng)分規(guī)則。值得注意的?是,評(píng)分標(biāo)準(zhǔn)在考試說(shuō)明中都有明確說(shuō)明,考生通常也清楚知道需要在什么自信閾值之上做出最佳猜?測(cè)才合乎邏輯。
同樣,我們建議在提示(或系統(tǒng)消息)中明確聲明置信度目標(biāo)?。例如,可以在每個(gè)問(wèn)題后附加?如下語(yǔ)句:
只有當(dāng)你t/(1??t)分的分?jǐn)?shù)會(huì)被扣掉,而正確答案會(huì)得到1分,而“?我不知道”?的答案會(huì)得到0?分。
t?的自然取值有t=0.5(懲罰系數(shù)1)、t=0.75(懲罰系數(shù)2)?以及t=0.9(懲罰系數(shù)9)。當(dāng)t?= 0時(shí)對(duì)應(yīng)二元評(píng)分機(jī)制,?其具體表述可采用類似“如同參加考試般,即便不確定也要盡力做出最佳判斷”?的表述方式。通過(guò)簡(jiǎn)單計(jì)算即可?得出...
表2:本研究分析的評(píng)估基準(zhǔn)及其對(duì)棄權(quán)處理方式的總結(jié)。“二元評(píng)分”表示主要指標(biāo)是嚴(yán)格?的正確/錯(cuò)誤準(zhǔn)確率;“IDK學(xué)分”表示棄權(quán)是否可以獲得學(xué)分。

表明,給出答案的期望分?jǐn)?shù)優(yōu)于IDK(分?jǐn)?shù)為0),當(dāng)且僅當(dāng)其置信度(即,正確的概率)>t。
這類懲罰機(jī)制在幻覺(jué)研究領(lǐng)域已有深入探討(Ji等人,2023)。但我們發(fā)現(xiàn)其中存在兩個(gè)細(xì)微?差異,這些差異具有統(tǒng)計(jì)學(xué)意義。首先,建議在訓(xùn)練指令中明確設(shè)置置信度閾值——現(xiàn)有研究大?多未提及置信度目標(biāo)或懲罰機(jī)制(Wu等人的2025研究是個(gè)例外,他們提出了帶有明確懲罰機(jī)制的 “風(fēng)險(xiǎn)告知”提示)。理想的懲罰機(jī)制應(yīng)反映現(xiàn)實(shí)危害的可能性,但這種設(shè)定過(guò)于具體,難以適應(yīng)?不同問(wèn)題、應(yīng)用場(chǎng)景和用戶群體。若訓(xùn)練指令缺乏透明的閾值設(shè)定,語(yǔ)言模型開發(fā)者將難以就合理?閾值達(dá)成共識(shí)。同理,若評(píng)分指令中未明確錯(cuò)誤懲罰標(biāo)準(zhǔn),學(xué)生可能會(huì)質(zhì)疑評(píng)分機(jī)制的公平性。因?此,在每個(gè)問(wèn)題的訓(xùn)練指令中明確設(shè)置置信度閾值,即便具體閾值選擇存在主觀性或隨機(jī)性,也能?確保評(píng)分過(guò)程的客觀性。如果閾值是明確的,那么一個(gè)模型可能在所有閾值下都是最好的。但是,?如果閾值沒(méi)有明確說(shuō)明,那么就存在固有的權(quán)衡,沒(méi)有一個(gè)模型在一般情況下是最好的(除了一個(gè)?總是正確的模型)。
其次,我們建議將置信度指標(biāo)納入主流評(píng)估體系。例如廣受關(guān)注的SWE基準(zhǔn)測(cè)試(吉梅內(nèi)斯等 人,2024)就采用軟件補(bǔ)丁的二元評(píng)分機(jī)制,而現(xiàn)有研究大多在定制化幻覺(jué)評(píng)估中引入隱性誤差懲?罰。單純?cè)黾与[性誤差懲罰的評(píng)估方式仍存在前文所述的精度與誤差權(quán)衡問(wèn)題。相比之下,在已廣?泛使用的主流評(píng)估體系中融入置信度指標(biāo),能有效降低對(duì)合理表達(dá)不確定性的懲罰力度。這種做法?有望顯著提升專為幻覺(jué)評(píng)估設(shè)計(jì)的系統(tǒng)的有效性。
在明確的置信度目標(biāo)下,存在一種行為可以同時(shí)對(duì)所有目標(biāo)最優(yōu)——在正確性概率大于某個(gè)閾值的示例中輸出IDK。
目標(biāo)。我們將這種現(xiàn)象稱為行為校準(zhǔn)——不同于要求模型輸出概率置信度(Lin等人,2022a),?它必須確定在至少t置信度下最有效的響應(yīng)方式。通過(guò)比較不同閾值下的準(zhǔn)確率和錯(cuò)誤率,可以驗(yàn)?證行為校準(zhǔn)的有效性?,?同時(shí)規(guī)避了正確回答方式可能呈指數(shù)級(jí)增長(zhǎng)的問(wèn)題(Farquhar等人,2024)。現(xiàn)有模型可能具備也可能不具備這種校準(zhǔn)能力,但將其作為客觀評(píng)估指標(biāo)可能具有重要價(jià)值。
5?、討論和局限性
由于幻覺(jué)具有多面性,該領(lǐng)域很難就如何定義、評(píng)估和減少幻覺(jué)達(dá)成一致。為了簡(jiǎn)化,統(tǒng)計(jì)框架必須優(yōu)先考慮某些方面而忽略其他方面。關(guān)于本文所用框架的范圍和局限性,有幾點(diǎn)需要說(shuō)明。
可信性與無(wú)意義性。幻覺(jué)現(xiàn)象屬于合理錯(cuò)誤,由于我們的分析僅考慮X字符串的可信性,因此忽略?了生成無(wú)意義字符串的可能性(當(dāng)前最先進(jìn)的語(yǔ)言模型極少產(chǎn)生此類情況)。不過(guò),定理1的陳述?與證明在以下修正定義下依然成立:將無(wú)意義字符串N?的劃分設(shè)為X?=?NUεUV?,錯(cuò)誤率定義為^?p?(NUε?)?,?D(N?)= 0?,并假設(shè)p(V?)=?1。
開放式提問(wèn)的代際差異。為便于理解,本文示例聚焦單一事實(shí)性任務(wù)。但類似“撰寫....傳記”這?類開放式指令常引發(fā)想象偏差,我們可通過(guò)將包含多個(gè)錯(cuò)誤的回答定義為錯(cuò)誤案例,將其納入框?架體系。不過(guò)在此類場(chǎng)景中,根據(jù)錯(cuò)誤數(shù)量評(píng)估想象偏差程度的做法更為自然合理。
搜索技術(shù)(及其推理機(jī)制)并非包治百病的靈丹妙藥。多項(xiàng)研究表明,通過(guò)搜索或檢索增強(qiáng)生成?(RAG)技術(shù)優(yōu)化的語(yǔ)言模型能有效減少幻聽現(xiàn)象(路易斯等學(xué)者,2020;舒斯特等學(xué)者,2021;中野等學(xué)者,2021;張和張,2025)。但值得注意的是,這一規(guī)律同樣適用于各類語(yǔ)言模型,包括?采用RAG技術(shù)的模型。具體而言,二元評(píng)分系統(tǒng)本身仍會(huì)在搜索未能得出可靠答案時(shí),繼續(xù)對(duì)猜測(cè)?行為給予獎(jiǎng)勵(lì)。此外,對(duì)于字母計(jì)數(shù)等計(jì)算錯(cuò)誤或其它內(nèi)在性幻聽現(xiàn)象,搜索機(jī)制可能收效甚微。
隱含上下文。部分錯(cuò)誤無(wú)法僅通過(guò)提示和回答來(lái)判斷。例如,當(dāng)用戶詢問(wèn)手機(jī)相關(guān)問(wèn)題時(shí),語(yǔ)言模??型卻給出了關(guān)于蜂窩網(wǎng)絡(luò)的回復(fù),而提問(wèn)本意是咨詢固話相關(guān)問(wèn)題。這類歧義不符合我們的錯(cuò)誤定??義標(biāo)準(zhǔn),因?yàn)樵摱x不依賴于提示和回答之外的外部上下文。若能擴(kuò)展模型以納入“?隱性上下文”?將十分有趣——這些上下文雖未直接出現(xiàn)在給語(yǔ)言模型的提示中,但可用于判斷錯(cuò)誤,涉及隨機(jī)不確定性。
這種虛假的三元對(duì)立。我們的評(píng)估體系并未區(qū)分不同規(guī)模的誤差或不同程度的不確定性。顯然,?傳統(tǒng)的正確/錯(cuò)誤/不確定(IDK)分類同樣存在局限性。雖然統(tǒng)計(jì)學(xué)上的理想狀態(tài)是像評(píng)估下游應(yīng)?用中的語(yǔ)言模型那樣,為每個(gè)評(píng)價(jià)打分,但明確置信度目標(biāo)為主流評(píng)估提供了實(shí)用且客觀的改進(jìn)?方案。相較于虛假二分法,這種虛假三元對(duì)立至少能提供一個(gè)IDK選項(xiàng)——這在傳統(tǒng)評(píng)估中是不存在的.
除了IDK之外,人類表達(dá)不確定性的方式多種多樣,比如使用對(duì)沖措辭、省略細(xì)節(jié)或提出疑問(wèn)。盡?管語(yǔ)言模型可能遵循諸如語(yǔ)言校準(zhǔn)(米爾克等人,2022;達(dá)馬尼等人,2025)等置信度概念,但語(yǔ)?言的實(shí)際運(yùn)用現(xiàn)象(奧斯汀,1962;格萊斯,1975)卻充滿微妙之處。例如,雖然語(yǔ)言模型有時(shí)需?要明確表達(dá)概率性置信度(林等人,2022a),但這種做法也可能導(dǎo)致不自然的表述,比如“我有?1/365的概率確定卡萊的生日是3月7日”。本文重點(diǎn)探討影響語(yǔ)言模型最終決策的統(tǒng)計(jì)因素。
6、結(jié)論
本文從現(xiàn)代語(yǔ)言模型中揭開幻覺(jué)現(xiàn)象的神秘面紗,從其在預(yù)訓(xùn)練階段的起源到訓(xùn)練后持續(xù)存在的現(xiàn)象。我們發(fā)現(xiàn),在預(yù)訓(xùn)練過(guò)程中,生成式錯(cuò)誤與監(jiān)督學(xué)習(xí)中的誤分類現(xiàn)象相似——這些錯(cuò)誤并?非神秘存在,而是由于交叉熵?fù)p失最小化所自然產(chǎn)生的結(jié)果。
許多語(yǔ)言模型的缺陷可以通過(guò)單一評(píng)估指標(biāo)來(lái)捕捉。例如,過(guò)度使用開場(chǎng)語(yǔ)“ 當(dāng)然” 的問(wèn)題, 可以通過(guò)單獨(dú)設(shè)置“當(dāng)然 ”評(píng)估來(lái)解決(阿莫迪和弗里德曼,2024),因?yàn)橐浴?當(dāng)然”開頭的回 答對(duì)其他評(píng)估指標(biāo)影響甚微。相比之下,我們認(rèn)為主流評(píng)估體系大多在縱容幻覺(jué)行為。對(duì)現(xiàn)有評(píng)估 體系進(jìn)行簡(jiǎn)單調(diào)整,就能重新校準(zhǔn)激勵(lì)機(jī)制——獎(jiǎng)勵(lì)合理的不確定性表達(dá)而非懲罰它們。這不僅能掃除抑制幻覺(jué)的障礙,還將為未來(lái)開發(fā)更精細(xì)的語(yǔ)言模型開辟道路,比如具備更強(qiáng)語(yǔ)用能力的模型(馬等人,2025)。
致謝。我們衷心感謝AlexBeutel、TomCunningham、YannDubois、ParikshitGopalan、JohannesHeide-?cke、ZoeHitzig、SaachiJain、ManasJoglekar、SanjayKairam、EhudKalai、AminKarbasi、AlanLuo、AnayMehrotra、EricMitchell、CameronRaymond、DavidG.?Robinson、MandipShah、JoshuaVendrow、GrigorisVelegkas、RoseWang、ZhigangWang、JasonWolfe和JasonWei在討論中給予的寶貴建議。
(參考文獻(xiàn)列表詳細(xì)列出了所有引用的論文和資料,此處省略具體條目以節(jié)省空間)
主定理的證明
我們證明主要定理。
定理證明1。設(shè)K:=c∈C|εc|的最小值,k := max c∈C| Vc|。同時(shí)回顧δ=|^ p(A)–p(A)| ,該表達(dá)式可等價(jià)表示為δ=|p(B)–^p(B)|,其中A、B分別表示高于和低于閾值的響應(yīng):

將幻覺(jué)和誤分類率劃分為閾值以上和閾值以下兩種類型:

當(dāng)錯(cuò)誤分類數(shù)超過(guò)閾值時(shí),D(A?\?V?)等于所有滿足條件的D(c?,r)的總和,其中∈A指r∈εc——每個(gè)貢獻(xiàn)項(xiàng)?D(c?,r)的計(jì)算公式為μ(c)/?2?|εc|≤μ(c)/?2?K?。但每個(gè)這樣的錯(cuò)誤分類還會(huì)對(duì)閾值以上的幻覺(jué)現(xiàn)象做出貢?獻(xiàn),其計(jì)算公式為μ(c)^?p(r?| c)?≥μ(c)/K?。因此,

因此,只需證明低于閾值的情況:

根據(jù)定義,2?D(B∩V?)=?p(B∩V?)=?p(B)。此外,每個(gè)c對(duì)應(yīng)有|Vc|≤k種有效響應(yīng),每個(gè)響應(yīng)在B中的概率為^?p(r?| c)?≤?1?/K?,因此^?p(B∩V?)?≤?Σc?^?p(c)k/K?=?k/K?。因此,

如需要,這等同于式(6)。
B任意事實(shí)分析
我們首先回顧古德-圖靈(GT)缺失質(zhì)量估計(jì)量(?Good?,1953)及其理論保證(麥卡萊斯特與奧爾蒂斯,2003)。在此設(shè)定中,從S集合ν?上抽取N個(gè)獨(dú)立同分布樣本s ~?ν?N?,且不考慮棄權(quán)情?況。缺失質(zhì)量指從訓(xùn)練集中抽取新樣本時(shí)出現(xiàn)ν?未被包含的概率,GT估計(jì)量則是訓(xùn)練樣本中唯一?出現(xiàn)一次的占比。我們首先陳述先驗(yàn)保證,然后將其調(diào)整適用于包含棄權(quán)數(shù)據(jù)的場(chǎng)景。麥卡萊斯特與奧爾蒂斯(?2003)的理論保證可表述為:
推論3.?(McAl lester和Ortiz,2003)設(shè)s ~ ν N 為從分布ν上集合S中獨(dú)立同分布的樣本。令M := Pr x ~ ν [ x∈s ]和GT表示恰好出現(xiàn)一次的樣本所占的比例。對(duì)于任意γ∈(0 ,1]:

證明。設(shè)GT := E[GT] ,M := E[ M ] 。通過(guò)結(jié)合關(guān)于M和GT的集中性邊界,推論即可得出。首先,McAllester和Schapire(2000年)的第一定理表明:

然后,定理10和16(McAllester和Ortiz?,2003)表明,?以?≤?exp(?—Nε?2?)的概率,M在任一方向上?與M的偏差將超過(guò)ε?,?通過(guò)聯(lián)合界給出的


根據(jù)McAllester和Schapire(?2000)的引理13?,McDiarmid不等式(McDiarmid?,1989)直接推導(dǎo)出?GT的收斂性,因?yàn)楦淖內(nèi)我庖粋€(gè)樣本最多只能使GT變化2/N?。因此,

通過(guò)聯(lián)合邊界,將這三個(gè)顯示方程組合起來(lái),得到

最后,推論由1 +?√?得出2?≤?2.42.
我們將這一概念擴(kuò)展到棄權(quán)響應(yīng)IDK未被計(jì)入sr的情況。具體來(lái)說(shuō),如果訓(xùn)練數(shù)據(jù)中存在一個(gè)訓(xùn)練樣本(c (i ),r(i )),且滿足c(i )= c且r(i ),則說(shuō)明查詢c在訓(xùn)練數(shù)據(jù)中被回答。不等于IDK ,否則未回答。

表示未回答查詢的集合。當(dāng)然,通過(guò)記憶已回答查詢的ac,可以實(shí)現(xiàn)對(duì)已回答查詢的完美分類準(zhǔn)確率。我們將圖靈的缺失質(zhì)量(MM)估計(jì)擴(kuò)展到棄權(quán)情況如下:

我們同樣使用推論3來(lái)證明sr是MM的良好估計(jì)器:
引理1.?對(duì)于所有N,γ∈ (0 、 1] :

證明。我們的MM-sr與標(biāo)準(zhǔn)M-GT 的唯一區(qū)別在于我們忽略了棄權(quán)選項(xiàng)。為了調(diào)整之前的界限,考 慮通過(guò)將所有兒 =(c , IDK)替換為兒 = IDK而其他參數(shù)保持c不變所得到的樣本s 。這將所有 IDK響應(yīng)合并為相同的樣本。因此,相較于sr ,GT最多可能多統(tǒng)計(jì)一個(gè)單例樣本,

上述替換將導(dǎo)致如下分布φ:φ(IDK)=?Σ?cμ(c)p(IDK| c)表示棄權(quán)概率。類似地,我們得到M??MM∈{0?,φ(IDK)}的條件概率為M?MM?=φ(IDK),當(dāng)且僅當(dāng)IDK滿足以下條件時(shí)成立。s,其發(fā)生概率為(1?φ(IDK))N?。但我們也存在(1??φ(IDK))N?≤√/?5的情況。?(IDK)?≥?ln?.?因此,無(wú)論φ(IDK)的值是多少,

將上述兩個(gè)顯示的方程式組合為:

推論3在五分之四Y給予

結(jié)合式(77)通過(guò)并集定理和三角形不等式,可得:

Finally, the lemma follows from the fact that for z :=2\N ln 5\Y≥1\N ln 5\Y+1\N, we have z ≤ √z as long 如z≤ 1(否則引理顯然成立,因?yàn)檫吔缡? 2)。? ? ? ? ?
引理2. 對(duì)于任意N≥ 1 ,√∈ (0 ,1] , 以及任何輸出^p的算法,

證明:根據(jù)引理1

請(qǐng)注意對(duì)于N≥?2(且引理顯然適用于N=?1的情況)?。此外,?√?2 + 4?.?42 ?≤?6?。因此,?只需證明以下結(jié)論即可:

令ζ?:=?ln(3?N/γ?)?/N?,并計(jì)算每個(gè)查詢出現(xiàn)時(shí)帶有答案(非IDK)的概率
根據(jù)p為:
μ?,(c?):=μ(c?)?α?c
因此,當(dāng)ac被選中時(shí),μ?,(c)=?p(c?,ac)。同時(shí)注意MM=Σ?c∈Uμ?,(c)。該引理將通過(guò)以下兩個(gè)不等式得出:

μ?,(c)?≤ζ?條件將使我們能夠使用霍夫丁界。對(duì)于方程(8),注意存在≤?1個(gè)/ζ?查詢c與μ?,(c)?≥?ζ?。對(duì)于每個(gè)這樣的查詢,概率c∈U最大為(1??ζ?)?N?。因此,根據(jù)并集界,

這等同于式(8),現(xiàn)在我們繼續(xù)建立式(9)。
令指示器I[???]在謂詞??成立時(shí)取值為1?,否則取值為0?。誤差erriiv至少等于其在c∈U,r∈Rc上的總和,?根據(jù)D的定義,

因此,erriiv ?≥?Σ?c∈Uμ?,(c)γ?c的定義如上所述,不難看出其取值范圍為γc[0?,1]?。?(μ?,(c)?≤ζ?條件將?使我們能夠?qū)⒒舴蚨〗鐟?yīng)用于Σ?μ?,(c)γ?c?。)因此,我們只需證明以下結(jié)論即可替代方程(9):?

現(xiàn)在來(lái)看關(guān)鍵技巧:?由于算法的輸出與未見過(guò)的c∈U無(wú)關(guān)ac?,我們可以等效地設(shè)想:ac的選擇僅在?算法對(duì)訓(xùn)練數(shù)據(jù)運(yùn)行后,根據(jù)確定^?f?的^p值來(lái)決定對(duì)未見過(guò)的c∈U進(jìn)行選擇。因此,假設(shè)cv將被?選入c∈U?,但此時(shí)訓(xùn)練數(shù)據(jù)及^?f值已經(jīng)固定。
我們發(fā)現(xiàn)E[?γ?c?] =?1?/?2?,因?yàn)闊o(wú)論r∈Rc是否滿足^?f(c,r)=?±?,?每個(gè)這樣的r都會(huì)對(duì)這個(gè)期望值貢獻(xiàn)1/2|Rc|?。由此可得E[Σ?cμ?,(c)γ?c?] =?MM?/?2?,其中MM=Σ?cμ?,(c)。最后,我們可以應(yīng)用霍夫丁界來(lái)分析Σ?cμ?,(c)γ?c?,因?yàn)?μ?,(c)γ?c是獨(dú)立的隨機(jī)變量,各自落在[0?,μ?,(c)]區(qū)間內(nèi)。該界值取決于,

因此,Hoeffding界給出,

這相當(dāng)于方程(10)中的表達(dá)式,因?yàn)椤?2?ζ?ln(6?/γ?) 等與√?2 ln(3N/γ)ln(6/γ)/N ≤ ln(3N/γ)p 2/N (使用ln(6/γ)≤ln(3N/γ)成立,而引理對(duì)于N=?1也自然成立)。
現(xiàn)在證明定理2。
定理2的證明2。對(duì)于任意區(qū)間γ∈(0,1],以下更一般的下界直接由定理1和引理2得出:當(dāng)maxc|Vc|=2時(shí),以概率≥1?γ:

在≥99%的概率下,當(dāng)γ=0.0.?1時(shí),我們采用簡(jiǎn)化處理:令6?ln(3?N/γ?)?≤?35 + 6?ln?N?。現(xiàn)在令L?:=?max?c|εc|。?對(duì)于上界,我們現(xiàn)在證明存在一個(gè)高效的算法輸出校準(zhǔn)^?p(因此δ?= 0)?,并且以概率≥?1??γ?,

定理中的99%概率邊界來(lái)自5√In(500)< 13。
經(jīng)過(guò)校準(zhǔn)的語(yǔ)言模型學(xué)習(xí)算法將記憶ac用于(c?,ac)在訓(xùn)練數(shù)據(jù)中看到的,并與p在這些c上完全一致。?
在訓(xùn)練數(shù)據(jù)中U見到。對(duì)于未見過(guò)的c∈U?,它以1的概率選擇正確選項(xiàng)??α?c?,否則在Rc上進(jìn)行均勻隨機(jī)選擇:

“這^?p?。”

最后,根據(jù)引理1

這些意味著,

?如需要。剩下的就是證明對(duì)于所有z∈?[0?,?1]?,?δ?z?= 0?。根據(jù)δ?z的定義,

根據(jù)定義^?p(r?| c)在除c∈U和r∈Rc之外的所有位置都等于p(r?| c)。對(duì)于每個(gè)c∈U?,^?p(c,r)在r?∈Rc區(qū)域內(nèi)保持恒定,因此當(dāng)所有r∈R c或沒(méi)有r∈Rc時(shí),^?p(c,r)都> z?。因此無(wú)論哪種情況,上述內(nèi)?層求和結(jié)果都是0:因?yàn)楫?dāng)Σ?r∈Rc時(shí),^?p(r?| c)??p(r?| c)= 0?,而^?p(IDK?| c)=?p(IDK?| c)。
模型分析
就像多項(xiàng)選擇題考試那樣,每個(gè)問(wèn)題只有一個(gè)正確答案。在這種情況下,如果唯一正確的選項(xiàng)是?唯一的正確答案,而我們無(wú)法可靠地區(qū)分其他選項(xiàng),那么出現(xiàn)錯(cuò)誤就變得很自然了。對(duì)于這種簡(jiǎn)?單的情況,我們證明存在一個(gè)閾值t?,并給出了更優(yōu)的邊界估計(jì)。具體來(lái)說(shuō),假設(shè)

因此當(dāng)t=1/分鐘時(shí),^?f=^?f?t?|εc|?,而^?f?的定義在正文已有說(shuō)明。現(xiàn)在我們將陳述并證明一個(gè)比定理3更強(qiáng)的定理。定理3可直接由opt(G)的定義及以下定理得出。
定理4.?假設(shè)對(duì)于所有c∈C都有|V?c ?|?=?1?,令C= min?c ?|?ε?c??|?+?1為選項(xiàng)數(shù)量。那么對(duì)于所有p,^?p?,都存在某個(gè)閾值t?∈?[0?,1]使得:

注意,推論2的證明直接從定理4中得到
推論2的證明 2。該證明直接由定理4和err?iiv(^?ft?)=這一事實(shí)得出。
1?/?2因?yàn)榛谌P偷姆诸惼鱚?ft無(wú)法區(qū)分c?1?、c?2?。
現(xiàn)在我們證明定理4。
定理4的證明4?。考慮到選擇一個(gè)均勻隨機(jī)的t∈?[0?,?1]?。我們證明:

這意味著必須存在某個(gè)閾值t∈?[0?,?1]使得該條件成立。需要注意的是,對(duì)于均勻隨機(jī)的t∈?[0?,?1],

首先,預(yù)期假陽(yáng)性率(^?p(r?| c)>?t?)為:

其次,對(duì)于每個(gè)c?,令Ac?=?{ac}?,則預(yù)期的假陰性率是:

因此,預(yù)期的誤分類率,即預(yù)期的假陽(yáng)性和假陰性率之和,滿足:

相當(dāng)于重新排列項(xiàng)后的式(11?11)。
計(jì)算上難以處理的幻覺(jué)
在本節(jié)中,我們提供了計(jì)算不可行性的典型示例第3.4節(jié)。更自然的、導(dǎo)致幻覺(jué)的實(shí)證困難問(wèn)題的?例子由Fan等人(?2024)和Tang等人(?2025)進(jìn)行了研究。
一個(gè)安全的加密系統(tǒng)必須具備這樣的特性:任何高效的算法都無(wú)法比隨機(jī)猜測(cè)更準(zhǔn)確地推測(cè)出?正確答案。在對(duì)稱密鑰加密系統(tǒng)中,若雙方不知道共享的密鑰S,即使竊聽者也無(wú)法破譯通信內(nèi)容。從形式化定義來(lái)看,這種系統(tǒng)包含三個(gè)核心要素:消息集M、密文H、加密函數(shù)eS:M→H,以及解密函數(shù)dS:H→M。其中,對(duì)于所有m∈M,都有dS(eS(m))=?m。
在幻覺(jué)語(yǔ)境中,p輸出形式為c,r,其中r∈M是均勻隨機(jī)變量,提示語(yǔ)c采用“如何解密h?”的形式,其中h=?eS(r)。不出所料,我們的主要定理表明語(yǔ)言模型會(huì)產(chǎn)生錯(cuò)誤。在安全系統(tǒng)中,?若無(wú)法識(shí)別S,就無(wú)法區(qū)分m∈M為均勻隨機(jī)消息且h∈H為錯(cuò)誤(或均勻隨機(jī))密文的對(duì)m,e?S(m)與m,h。換言之,無(wú)法區(qū)分真實(shí)通信與錯(cuò)誤或隨機(jī)通信的分布特征。這種表述與我們的分布D相匹配:以1/2的概率,x?=(e(m),m);以1?/?2的概率,x=(h)。e(m),m?),其中h∈H?\{e(m)}是均勻隨機(jī)的。這對(duì)應(yīng)于隨機(jī)提示μ,目標(biāo)函數(shù)f(h,r)= +當(dāng)且僅當(dāng)h?=?e(r)時(shí)成立。標(biāo)準(zhǔn)難度安全定義的一種形式如下(參見,例如Goldreich,2001年):
定義3(安全加密)。設(shè)β∈[0?,1]?。分類器^f:?X→{?+?,?}?。若加密方案β?-breaks,則:

如前所述,隨機(jī)分布^p在任何時(shí)間點(diǎn)t下都具有δ?= 0的特性,因此很容易產(chǎn)生弱校準(zhǔn)響應(yīng)。然?而,任何經(jīng)過(guò)校準(zhǔn)的語(yǔ)言模型都無(wú)法正確回答此類提示——假設(shè)其無(wú)法破解密碼系統(tǒng)。基于這些?定義,定理1立即通過(guò)|Vc|?= 2和|εc|?=?|M|???1的條件得出以下結(jié)論:
觀察2.對(duì)于任何[0 ,1]的β∈和任何語(yǔ)言模型^ p ,如果分類器^f不β破壞加密安全,則^p將以至少的 概率輸出錯(cuò)誤的解密r,

這個(gè)風(fēng)格化的例子說(shuō)明了我們的簡(jiǎn)化如何應(yīng)用于計(jì)算困難的問(wèn)題,以及監(jiān)督學(xué)習(xí)的計(jì)算困難如?何與幻覺(jué)的一個(gè)因素計(jì)算困難相平行。
培訓(xùn)后分析
以下是觀察結(jié)果的簡(jiǎn)短證明1。
觀測(cè)證明1?。假設(shè)對(duì)于所有r∈Ac都有gc(r)= 0?,并且每個(gè)二元評(píng)分函數(shù)g c都在某個(gè)值r∈Rc?\ Ac處?取gc(r)=?1?。此外,?由于X被假定為有限集合,必定存在某個(gè)這樣的r使得Pr?gc~ρ?c??[?gc(r)=?1]?>?0?。這由并集界得出:

因此,就預(yù)期分?jǐn)?shù)而言,所有r∈A c都是嚴(yán)格次優(yōu)的。
不確定響應(yīng)的電流分級(jí)
我們通過(guò)分析具有影響力的評(píng)估指標(biāo),來(lái)探究獎(jiǎng)勵(lì)猜測(cè)或虛張聲勢(shì)的二元評(píng)分機(jī)制在語(yǔ)言模型領(lǐng)?域的普遍性。盡管近年來(lái)語(yǔ)言模型評(píng)估數(shù)量激增,但該領(lǐng)域仍聚焦于少數(shù)幾個(gè)基準(zhǔn)測(cè)試。本文通?過(guò)研究主流排行榜,揭示這些權(quán)威評(píng)估如何量化回答的不確定性。其中兩個(gè)排行榜依據(jù)多項(xiàng)篩選?標(biāo)準(zhǔn)精選評(píng)估指標(biāo),另外兩個(gè)則自主創(chuàng)建了現(xiàn)已被廣泛采用的基準(zhǔn)測(cè)試體系。
表2(第14頁(yè))展示了本文選取的十項(xiàng)評(píng)估指標(biāo)。其中僅有一項(xiàng)被納入多個(gè)排行榜的WildBench?(林等人,2025)對(duì)不確定性標(biāo)注的貢獻(xiàn)度評(píng)分較低。值得注意的是,兩個(gè)精選排行榜的前三項(xiàng)評(píng)估指標(biāo)存在50%重疊。作為對(duì)這些評(píng)估重視程度的進(jìn)一步佐證,谷歌最新發(fā)布的語(yǔ)言模型產(chǎn)品(Gemini2.5Pro,谷歌DeepMind,2025)中包含了GPQA、MMLU、SWE-bench、HLE和AIME(與MATHL5類似)的測(cè)試結(jié)果。OpenAI同樣公布了GPQA(OpenAI,2024)、經(jīng)MMLU和SWE-bench驗(yàn)證的模型(OpenAI,2025d)、IFEval(OpenAI,2025c)以及MATH (OpenAI,2023b?),以及HLE(OpenAI,2025b)。斯坦福大學(xué)2025年發(fā)布的AI指數(shù)報(bào)告(Maslej等人,2025)包含了MMLU-Pro、GPQA、WildBench、MATH、SWE-bench和HLE的測(cè)試結(jié)果。
值得注意的是,許多評(píng)估體系會(huì)使用語(yǔ)言模型來(lái)評(píng)判答案,例如判斷1/5和3/2這類數(shù)學(xué)等式的?正確性。但研究發(fā)現(xiàn),語(yǔ)言模型在評(píng)分時(shí)也會(huì)出現(xiàn)誤判,即便面對(duì)數(shù)學(xué)題時(shí),有時(shí)會(huì)將冗長(zhǎng)錯(cuò)誤?的回答判定為正確(徐等人,2025)。這種評(píng)估機(jī)制的特性,即便在數(shù)學(xué)這類客觀領(lǐng)域,也可能?助長(zhǎng)考生的臆想行為。
F.1、HELM功能基準(zhǔn)
語(yǔ)言模型整體評(píng)估框架(全稱Holistic?Evaluation?of?Language?Models?,簡(jiǎn)稱HELM?,李良等學(xué)者于?2023年提出)是業(yè)內(nèi)公認(rèn)且廣泛應(yīng)用的評(píng)估標(biāo)準(zhǔn)。其旗艦級(jí)Capabilities排行榜(該榜單7位列所有?排行榜首位)?旨在“體現(xiàn)我們對(duì)通用能力評(píng)估的最新思考”?,該榜單包含五個(gè)評(píng)估場(chǎng)景:其中四個(gè)?場(chǎng)景明確不會(huì)給IDK(不知道/不知道)評(píng)分,而第五個(gè)場(chǎng)景對(duì)IDK的評(píng)分甚至低于存在事實(shí)錯(cuò)誤或?想象成分的合理回答,這種設(shè)計(jì)實(shí)際上也在鼓勵(lì)參賽者進(jìn)行隨機(jī)猜測(cè)。
具體而言,其包括一組場(chǎng)景,選擇方式如下。
針對(duì)每個(gè)能力指標(biāo),我們從現(xiàn)有文獻(xiàn)中選取了具有代表性的應(yīng)用場(chǎng)景進(jìn)行評(píng)估,綜合考量?三大維度:1)是否已達(dá)到飽和狀態(tài)(基于前沿模型性能判斷);2)是否具有時(shí)效性(根?據(jù)發(fā)布日期確定);3)質(zhì)量是否過(guò)硬(通過(guò)清晰度、應(yīng)用普及度和可復(fù)現(xiàn)性三個(gè)維度評(píng)?估)。最終共有22個(gè)模型在5個(gè)能力導(dǎo)向場(chǎng)景中完成基準(zhǔn)測(cè)試。(?徐等人,2025>)
該評(píng)估框架包含五個(gè)測(cè)試場(chǎng)景。前四個(gè)場(chǎng)景幾乎不為IDK選項(xiàng)計(jì)分。MMLU-Pro(王等人,2024)?和GPQA(耶穌萊因等人,2024)被評(píng)定為標(biāo)準(zhǔn)選擇題考試,且不設(shè)IDK選項(xiàng)。Omni-MATH(高某等人,2024a)通過(guò)將數(shù)學(xué)題目輸出與標(biāo)準(zhǔn)答案進(jìn)行比對(duì)來(lái)評(píng)估正確度,因?yàn)橥粩?shù)量可有多種?等效表達(dá)方式(例如1+τ?=τ?+1),但該測(cè)試同樣不為IDK選項(xiàng)計(jì)分。
IFEval(周等,2023)需要生成遵循若干指令的文本,但沒(méi)有提供任何具體的棄用選項(xiàng)。示例指令包括:
請(qǐng)用300+字撰寫維基百科頁(yè)面摘要...不要使用任何逗號(hào),并以markdown格式突出顯示至少三個(gè)標(biāo)題?部分...
答案將使用多種語(yǔ)言模型根據(jù)指令遵循的準(zhǔn)確性進(jìn)行評(píng)分。雖然不太可能且非預(yù)期,但可以想?象,像IDK這樣的棄權(quán)字符串可能會(huì)被視為足夠。
最后,WildBench(林等人,2025)是最相關(guān)的場(chǎng)景,因?yàn)樗褂迷u(píng)分者語(yǔ)言模型評(píng)估了語(yǔ)言?模型對(duì)真實(shí)用戶聊天的響應(yīng)。評(píng)分標(biāo)準(zhǔn)采用10分制,說(shuō)明中包括
-?Score?1?~?2?:響應(yīng)非常差,完全沒(méi)有意義。
-?Score 3?~?4?:響應(yīng)很糟糕,不能幫助用戶有效解決問(wèn)題。
-評(píng)分5?~?6分:回答比較公允,但存在一些問(wèn)題(例如,事實(shí)錯(cuò)誤、幻覺(jué)、缺少關(guān)鍵信息)。
由于IDK回答不能幫助用戶以有意義的方式解決問(wèn)題,因此可能會(huì)給出較低的評(píng)分(3-4),低于?存在事實(shí)錯(cuò)誤或幻覺(jué)的合理回答(5-6)。因此,評(píng)分可能會(huì)鼓勵(lì)猜測(cè)。
HELM實(shí)際上包含海量數(shù)據(jù),?由數(shù)百個(gè)高質(zhì)量評(píng)估組成。但由于成本和關(guān)注度的限制,這些復(fù)?雜的評(píng)估結(jié)果通常通過(guò)規(guī)模較小的排行榜進(jìn)行匯總呈現(xiàn)。我們研究了其官網(wǎng)首頁(yè)展示的排行榜,?但HELM中僅有極少數(shù)場(chǎng)景允許使用“不知道”選項(xiàng)。例如,廣為人知的偏見基準(zhǔn)測(cè)試
帕里什等人(2022年)在安全排行榜上列出的QA(BBQ)評(píng)估包含許多正確答案明確為IDK的問(wèn)?題,例如:?“一名基督徒和一名穆斯林在炸彈爆炸后都被看到逃離犯罪現(xiàn)場(chǎng)。誰(shuí)可能是安置炸彈的人?”
F.2、開放型語(yǔ)言模型領(lǐng)導(dǎo)者排行榜
廣受歡迎的開放LLM排行榜(米爾扎汗等人,2024)是開源語(yǔ)言模型領(lǐng)域最知名的可復(fù)現(xiàn)基準(zhǔn)之?一,其最新版本平均綜合了六大知名多任務(wù)基準(zhǔn)的性能表現(xiàn)。與HELM類似,該排行榜從Eluethe-?rAI的LM評(píng)估框架(高某等人,2024b)構(gòu)建的龐大評(píng)估體系中篩選出子集。?同樣遵循HELM標(biāo)?準(zhǔn),所選任務(wù)需滿足高質(zhì)量、廣泛應(yīng)用、可靠性、公平性、抗干擾及能力覆蓋等多項(xiàng)要求(Hugg?ingFace?,2024)。盡管該排行榜在2025年停止更新,但因其作為社區(qū)引用率最高且最具影響力的?基準(zhǔn)資源之一,我們?nèi)詫⑵浼{入分析范圍。
與HELM能力測(cè)試類似,新版測(cè)試(擁抱面孔,2024)同樣包含MMLU-Pro(王等人,2024)、GPQA(Rein等,2024)和IFEval(周等,2023),IDK對(duì)這些任務(wù)通常無(wú)法獲得任何分?jǐn)?shù)。測(cè)試還包含BigBenchHard(BBH)(蘇茲根等,2023),這是從BigBench基準(zhǔn)測(cè)試中選取的23個(gè)子任務(wù)(斯里瓦斯塔瓦等,2023),這些任務(wù)采用選擇題或完全匹配評(píng)分機(jī)制,因此IDK無(wú)法獲得任何部分分?jǐn)?shù)。此外,測(cè)試還包含MATH競(jìng)賽集的Level-5細(xì)分任務(wù)(亨德里克斯等,2021)以及多步驟軟推理評(píng)估(MuSR)(斯普拉格等,2024),這兩項(xiàng)評(píng)估僅基于準(zhǔn)確率計(jì)算,IDK同樣無(wú)法獲得分?jǐn)?shù)。
F.3、SWE-bench和人類的最后考試
SWE-bench(吉梅內(nèi)斯等人,2024)?已成為最具影響力的編程基準(zhǔn)測(cè)試和排行榜之一。8該測(cè)試包含來(lái)自GitHub問(wèn)題的2294個(gè)軟件工程問(wèn)題,評(píng)分標(biāo)準(zhǔn)是準(zhǔn)確性,因此不會(huì)區(qū)分錯(cuò)誤補(bǔ)丁和表示不?確定的響應(yīng)。
人類最后一場(chǎng)考試(HLE?,Phan等人,2025)的誕生,正是為了應(yīng)對(duì)頂尖語(yǔ)言模型在主流評(píng)估?中近乎完美表現(xiàn)的現(xiàn)象。該測(cè)評(píng)包含涵蓋數(shù)學(xué)、人文、社會(huì)科學(xué)等數(shù)十個(gè)領(lǐng)域的2500道題目,并特?別設(shè)置了私有測(cè)試集以防范試題泄露至訓(xùn)練數(shù)據(jù)導(dǎo)致的過(guò)擬合問(wèn)題。作為目前規(guī)模人工智能網(wǎng)站上?首個(gè)排行榜9?,HLE已獲得OpenAI(?OpenAI?,2025b)和谷歌(?GoogleDeepMind?,2025)在其語(yǔ)?言模型報(bào)告中的重點(diǎn)推介。類似在大多數(shù)評(píng)估中,主要指標(biāo)是二元準(zhǔn)確率,對(duì)IDK不給予任何積分。截至本文撰寫時(shí),所有報(bào)告的HLE準(zhǔn)確率?均低于30%。
值得注意的是,HLE模型還提供了一項(xiàng)校準(zhǔn)誤差指標(biāo),用于評(píng)估模型校準(zhǔn)偏差的程度。但當(dāng)前?的校準(zhǔn)表現(xiàn)仍不盡如人意,多數(shù)模型的校準(zhǔn)錯(cuò)誤率仍高達(dá)70%以上。雖然正如作者所述(Phan等人,2025),校準(zhǔn)誤差可能粗略地“?暗示了虛構(gòu)/幻覺(jué)現(xiàn)象”?,但它僅能衡量事后準(zhǔn)確率估計(jì)的不?足。校準(zhǔn)誤差并不能作為衡量幻覺(jué)的恰當(dāng)指標(biāo),原因在于:
???如果一個(gè)模型總是生成錯(cuò)誤答案,并且在每個(gè)答案中都顯示0%的置信度,那么該模型可以實(shí)?現(xiàn)100%的誤判率且沒(méi)有校準(zhǔn)誤差。雖然事后置信度評(píng)估可能有用,但在許多應(yīng)用中,與其向?用戶展示這類答案,不如直接隱藏它們,尤其是那些無(wú)視低置信度警告的用戶。
???如果一個(gè)模型總是以0%的置信度生成正確的答案,則該模型永遠(yuǎn)不會(huì)產(chǎn)生幻覺(jué)并具有100%的校準(zhǔn)誤差。
-END-