世界衛(wèi)生組織(WHO)的人工智能健康資源助手 SARAH 列出了舊金山本不存在的診所的虛假名稱和地址。
Meta公司“短命”的科學聊天機器人 Galactica 憑空捏造學術論文,還生成關于太空熊歷史的維基文章。
今年2月,加拿大航空被命令遵守其客戶服務聊天機器人捏造的退款政策。
去年,一名律師因提交充滿虛假司法意見和法律引用的法庭文件而被罰款,這些文件都是由 ChatGPT 編造的。
……
如今,大語言模型(LLM)胡編亂造的例子已屢見不鮮,但問題在于,它們非常擅長一本正經(jīng)地胡說八道,編造的內容大部分看起來都像是真的,讓人難辨真假。
在某些情況下,可以當個樂子一笑而過,但是一旦涉及到法律、醫(yī)學等專業(yè)領域,就可能會產(chǎn)生非常嚴重的后果。
如何有效、快速地檢測大模型的幻覺(hallucination),已成為當前國內外科技公司和科研機構競相關注的熱門研究方向。
如今,牛津大學團隊提出的一種新方法便能夠幫助我們快速檢測大模型的幻覺——他們嘗試量化一個LLM產(chǎn)生幻覺的程度,從而判斷生成的內容有多忠于提供的源內容,從而提高其問答的準確性。
研究團隊表示,他們的方法能在LLM生成的個人簡介,以及關于瑣事、常識和生命科學這類話題的回答中識別出“編造”(confabulation)。
該研究意義重大,因為它為檢測 LLM 幻覺提供了一種通用的方法,無需人工監(jiān)督或特定領域的知識。這有助于用戶了解 LLM 的局限性,并推動其在各個領域的應用。
相關研究論文以“Detecting Hallucinations in Large Language Models Using Semantic Entropy”為題,已發(fā)表在權威科學期刊 Nature 上。
在一篇同時發(fā)表的“新聞與觀點”文章中,皇家墨爾本理工大學計算機技術學院院長Karin Verspoor教授指出,該任務由一個LLM完成,并通過第三個LLM進行評價,等于在“以毒攻毒”。
但她也寫道,“用一個 LLM 評估一種基于LLM的方法似乎是在循環(huán)論證,而且可能有偏差。”不過,作者指出他們的方法有望幫助用戶理解在哪些情況下使用LLM 的回答需要注意,也意味著可以提高LLM在更多應用場景中的可信度。
如何量化 LLM 的幻覺程度?
我們先來了解一下,大模型的幻覺是如何產(chǎn)生的。
LLM的設計初衷是生成新內容。當你問聊天機器人一些問題時,它的回答并不是全部從數(shù)據(jù)庫中查找現(xiàn)成的信息,也需要通過大量數(shù)字計算生成。
這些模型通過預測句子中的下一個詞來生成文本。模型內部有成千上億個數(shù)字,就像一個巨大的電子表格,記錄了詞語之間的出現(xiàn)概率。模型訓練過程中不斷調整這些數(shù)值,使得它的預測符合互聯(lián)網(wǎng)海量文本中的語言模式。
因此,大語言模型實際上是根據(jù)統(tǒng)計概率生成文本的“統(tǒng)計老虎機”,搖桿一動,一個詞便出現(xiàn)了。
現(xiàn)有的檢測 LLM 幻覺的方法大多依賴于監(jiān)督學習,需要大量的標注數(shù)據(jù),且難以泛化到新的領域。
在這項研究中,研究團隊使用了語義熵的方法,該方法無需標注數(shù)據(jù),且在多個數(shù)據(jù)集和任務上表現(xiàn)出色。
語義熵(semantic entropy)是一種衡量語言模型生成的文本中潛在語義不確定性的方法,通過考慮詞語和句子在不同上下文中的意義變化來評估模型預測的可靠性。
該方法能檢測“編造”(confabulation)——這是“幻覺”的一個子類別,特指不準確和隨意的內容,常出現(xiàn)在LLM缺乏某類知識的情況下。這種方法考慮了語言的微妙差別,以及回答如何能以不同的方式表達,從而擁有不同的含義。
圖|語義熵與虛構內容檢測簡述
如上圖所示,傳統(tǒng)的基于熵的不確定性度量在精確答案的識別上存在局限,例如,它將“巴黎”、“這是巴黎”和“法國的首都巴黎”視為不同答案。然而,在涉及語言任務時,這些答案雖表述不同但意義相同,這樣的處理方式顯然不適用。語義熵方法則在計算熵之前,先將具有相同意義的答案進行聚類。低語義熵意味著大語言模型對其內容含義具有很高的確定性。
另外,語義熵方法還能有效檢測長段落中的虛構內容。研究團隊首先將生成的長答案分解為若干小事實單元。隨后,針對每個小事實,LLM 會生成一系列可能與之相關的問題。然后,原LLM會為這些問題提供M個潛在答案。接著,研究團隊計算這些問題答案的語義熵,包括原始的小事實本身。高平均語義熵表明與該小事實相關的問題可能存在虛構成分。在這里,由于即使用詞差異顯著,但生成的答案通常傳達相同意義,語義熵成功將事實1分類為非虛構內容,而傳統(tǒng)的熵方法則可能忽略這一點。
研究團隊主要在以下兩個方面對比了語義熵與其他檢測方式的差別。
1.檢測問答和數(shù)學問題中的虛構內容
圖|檢測句子長度生成中的虛構內容。
從上圖中可以看出,語義熵優(yōu)于所有基線方法。在 AUROC 和 AURAC 兩個指標上,語義熵均展現(xiàn)了更好的性能,這表明其能夠更準確地預測 LLM 錯誤,并提高模型拒絕回答問題時的準確率。
2.檢測傳記中的虛構內容
圖|檢測段落長度傳記中的 GPT-4 虛構內容。
如上圖所示,語義熵估計器的離散變體在 AUROC 和 AURAC 指標(在 y 軸上得分)上均優(yōu)于基線方法。AUROC 和 AURAC 都明顯高于兩個基線。在回答超過 80% 的問題時,語義熵的準確性更高。只有當拒絕最有可能是虛構內容的前 20% 答案時,P(True) 基線的剩余答案準確性才好于語義熵。
不足與展望
研究團隊提出的概率方法充分考慮了語義等價性,成功識別出一類關鍵的幻覺現(xiàn)象——即由于 LLM 知識缺乏而產(chǎn)生的幻覺。這類幻覺構成了當前眾多失敗案例的核心,且即便模型能力持續(xù)增強,由于人類無法全面監(jiān)督所有情境和案例,這類問題仍將持續(xù)存在。虛構內容在問答領域中尤為突出,但同樣在其他領域也有所體現(xiàn)。
值得注意的是,該研究使用的語義熵方法無需依賴特定的領域知識,預示著在抽象總結等更多應用場景中也能取得類似的進展。此外,將該方法擴展到其他輸入變體,如重述或反事實情景,不僅為交叉檢查提供了可能,還通過辯論的形式實現(xiàn)了可擴展的監(jiān)督。這表明該方法具有廣泛的適用性和靈活性。語義熵在檢測錯誤方面的成功,進一步驗證了LLM在“知道自己不知道什么”方面的潛力,實際上可能比先前研究所揭示的更為出色。
然而,語義熵方法主要針對由 LLM 知識不足導致的幻覺,比如無中生有或張冠李戴,對于其他類型的幻覺,比如由訓練數(shù)據(jù)錯誤或模型設計缺陷導致的幻覺,可能效果不佳。此外,語義聚類過程依賴于自然語言推理工具,其準確性也會影響語義熵的估計。
未來,研究人員希望進一步探索語義熵方法在更多領域的應用,并與其他方法相結合,從而提高 LLM 的可靠性和可信度。例如,可以研究如何將語義熵方法與其他技術,比如與對抗性訓練和強化學習相結合,從而進一步提高 LLM 的性能。此外,他們還將探索如何將語義熵方法與其他指標相結合,從而更全面地評估 LLM 的可信度。
但需要我們意識到的是,只要 LLM 是基于概率的,其生成的內容中就會有一定的隨機性。投擲100個骰子,你會得到一個模式,再投一次,你會得到另一個模式。即使這些骰子像 LLM 一樣被加權來更頻繁地生成某些模式,每次得到的結果仍然不會完全相同。即使每千次或每十萬次中只有一次錯誤,當你考慮到這種技術每天被使用的次數(shù)時,錯誤的數(shù)量也會相當多。這些模型越準確,我們就越容易放松警惕。
對于大模型的幻覺,你怎么看?
參考資料:
https://www.nature.com/articles/s41586-024-07421-0
https://www.technologyreview.com/2023/12/19/1084505/generative-ai-artificial-intelligence-bias-jobs-copyright-misinformation/