【編者按】今年的諾貝爾獎(jiǎng)陸續(xù)揭曉,人工智能(AI)行業(yè)可謂實(shí)現(xiàn)了令人意外的“大豐收”。
然而,盡管人工智能模型變得“越來越聰明”,但在面對(duì)一些人類日常生活中“顯而易見”的常識(shí)時(shí),卻非常容易出錯(cuò)。
也就是說,目前的人工智能模型缺乏人類輕易就可以表現(xiàn)出的常識(shí)能力。所謂的常識(shí)能力,是人類所具有的包含了事實(shí)知識(shí)和推理的一種能力,不僅只是記憶知識(shí),更包括在不確定情境中進(jìn)行推理和決策的能力。
那么,人工智能(AI)能否像人一樣擁有常識(shí)呢?計(jì)算機(jī)科學(xué)家又應(yīng)該如何讓人工智能具備人類般的常識(shí)?
近日,南加州大學(xué)信息科學(xué)研究所首席科學(xué)家 Mayank Kejriwal 等人在權(quán)威科學(xué)期刊 Nature 上發(fā)文:“Can AI have common sense? Finding out will be key to achieving machine intelligence”,討論了人工智能(尤其是 LLMs)在展示常識(shí)方面的挑戰(zhàn),并提出了改進(jìn)評(píng)估方法和未來研究方向的建議。
Kejriwal 等人指出,展示常識(shí)能力是機(jī)器智能發(fā)展中的重要里程碑。他們還提到,現(xiàn)有常識(shí)測(cè)試主要依賴多項(xiàng)選擇題,難以全面評(píng)估 LLMs 的常識(shí)推理能力,建議通過要求 LLMs 解釋其答案和進(jìn)行多步推理來提高評(píng)估的準(zhǔn)確性,此外還可以嘗試開發(fā)更具挑戰(zhàn)性的開放式測(cè)試。
最后,他們呼吁通過跨學(xué)科合作設(shè)計(jì)全面的理論基準(zhǔn),不斷探索具備具身常識(shí)的人工智能系統(tǒng),最終讓人工智能在現(xiàn)實(shí)世界中表現(xiàn)出更可靠的常識(shí)性推理。
學(xué)術(shù)頭條在不改變?cè)拇笠獾那闆r下,做了簡(jiǎn)單的編譯。內(nèi)容如下:
自從不到兩年前公開發(fā)布以來,ChatGPT 等 LLMs 已經(jīng)在機(jī)器智能領(lǐng)域取得了令人興奮和具有挑戰(zhàn)性的進(jìn)展。一些研究人員和評(píng)論家推測(cè),這些工具可能代表著機(jī)器向展示“通用人工智能(AGI)”——與人類智能相關(guān)的一系列能力——邁出了決定性的一步,從而實(shí)現(xiàn)了人工智能研究領(lǐng)域長(zhǎng)達(dá) 70 年的追求。
這條道路上的一個(gè)里程碑就是展示機(jī)器常識(shí)。對(duì)人類來說,常識(shí)是關(guān)于人和日常生活的“顯而易見的東西”。人類從經(jīng)驗(yàn)中知道玻璃制品易碎,或者在素食者朋友來訪時(shí)提供肉食可能是不禮貌的。如果一個(gè)人犯了大多數(shù)人通常不會(huì)犯的錯(cuò)誤,他就會(huì)被說成缺乏常識(shí)。在這一點(diǎn)上,當(dāng)前的 LLMs 往往做得不夠。
LLMs 通常在需要記憶的考試中表現(xiàn)出色。例如,ChatGPT 背后的 GPT-4 模型據(jù)說可以通過美國(guó)醫(yī)生和律師的執(zhí)照考試。然而,它和類似的模型很容易被簡(jiǎn)單的謎題難倒。
如今,類似這樣的多項(xiàng)選擇題被廣泛用于測(cè)量機(jī)器的常識(shí),與美國(guó)大學(xué)入學(xué)考試 SAT 如出一轍。然而,這類問題幾乎不能反映真實(shí)世界,包括人類對(duì)熱量或重力等物理定律的直觀理解,以及社會(huì)交往的背景。因此,量化 LLMs 與人類行為的接近程度仍是一個(gè)懸而未決的問題。
人類擅長(zhǎng)處理不確定和模糊的情況。通常,人們會(huì)選擇令人滿意的答案,而不是花費(fèi)大量的認(rèn)知能力去發(fā)現(xiàn)最佳解決方案——例如,在超市貨架上買一包足夠好的麥片,而不是分析每一個(gè)選項(xiàng)。人類可以在直覺推理和深思熟慮推理模式之間巧妙轉(zhuǎn)換,在出現(xiàn)不可能的情況時(shí)進(jìn)行處理,并制定計(jì)劃或策略——例如,人們?cè)谟龅浇煌〒矶聲r(shí)會(huì)從熟悉的路線轉(zhuǎn)向其他路線。
機(jī)器是否也會(huì)有類似的認(rèn)知能力?研究人員又將如何確切地知道人工智能系統(tǒng)是否正走在獲得這種能力的道路上?
要回答這些問題,計(jì)算機(jī)科學(xué)家就必須與發(fā)展心理學(xué)和心靈哲學(xué)等學(xué)科進(jìn)行合作。此外,還需要對(duì)認(rèn)知的基本原理有更深入的了解,才能設(shè)計(jì)出更好的指標(biāo)來評(píng)估 LLMs 的性能。目前,還不清楚人工智能模型是否擅長(zhǎng)在某些任務(wù)中模仿人類,也不清楚基準(zhǔn)衡量標(biāo)準(zhǔn)本身是否有問題。在此,我們將介紹在測(cè)量機(jī)器常識(shí)方面取得的進(jìn)展,并提出未來的發(fā)展方向。
穩(wěn)步前進(jìn)
關(guān)于機(jī)器常識(shí)的研究可以追溯到 1956 年在新罕布什爾州達(dá)特茅斯舉行的一次頗具影響力的研討會(huì),當(dāng)時(shí)頂尖的人工智能研究人員齊聚一堂?;谶壿嫷姆?hào)框架——使用字母或邏輯運(yùn)算符來描述對(duì)象和概念之間的關(guān)系——隨后被開發(fā)出來,用于構(gòu)建有關(guān)時(shí)間、事件和物理世界的常識(shí)性知識(shí)。例如,一系列“如果發(fā)生這種情況,那么接下來就會(huì)發(fā)生這種情況”的語句可以手動(dòng)編程到機(jī)器中,然后用來教它們一個(gè)常識(shí)性事實(shí):沒有支撐的物體在重力下會(huì)倒下。
這些研究確立了機(jī)器常識(shí)的愿景,即構(gòu)建能夠像人類一樣有效地從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算機(jī)程序。從更專業(yè)的角度講,其目標(biāo)是制造出一臺(tái)機(jī)器,在給定一系列規(guī)則的情況下,“自動(dòng)推斷出它被告知的任何事情和它已經(jīng)知道的事情的足夠廣泛的直接后果”。
因此,機(jī)器常識(shí)不僅包括高效學(xué)習(xí),還包括自我反思和抽象等能力。就其核心而言,常識(shí)既需要事實(shí)知識(shí),也需要利用這些知識(shí)進(jìn)行推理的能力。僅僅記住一大堆事實(shí)是不夠的。從現(xiàn)有信息中推導(dǎo)出新信息同樣重要,這樣才能在新的或不確定的情況下做出決策。
早期賦予機(jī)器這種決策能力的嘗試包括創(chuàng)建結(jié)構(gòu)化知識(shí)數(shù)據(jù)庫,其中包含常識(shí)性概念和關(guān)于世界如何運(yùn)作的簡(jiǎn)單規(guī)則。20 世紀(jì) 80 年代的 CYC 項(xiàng)目是最早大規(guī)模開展這項(xiàng)工作的項(xiàng)目之一。CYC 可以表示相關(guān)知識(shí),例如,不僅可以表示狗“是一種”動(dòng)物(分類),還可以表示狗“需要”食物。它還嘗試使用“是一種”等符號(hào),將與上下文相關(guān)的知識(shí)納入其中,例如,田徑比賽中的“running”與商務(wù)會(huì)議中的“running”含義不同。因此,CYC 使機(jī)器能夠區(qū)分事實(shí)性知識(shí)(如“美國(guó)第一任總統(tǒng)是喬治-華盛頓”)和常識(shí)性知識(shí)(如“椅子是用來坐的”)。同樣,ConceptNet 項(xiàng)目也將關(guān)系邏輯映射到由三個(gè)“單詞”組成的龐大網(wǎng)絡(luò)中(如 Apple - UsedFor - Eating)。
但這些方法在推理方面存在不足。常識(shí)推理是一種特別具有挑戰(zhàn)性的推理類型,因?yàn)橐粋€(gè)人在獲得更多信息后,會(huì)對(duì)某種情況或問題變得不那么確定。例如,在回答“他們來訪時(shí),我們是否應(yīng)該提供蛋糕?我認(rèn)為麗娜和邁克爾在節(jié)食”的想法在加上“但我知道他們有‘欺騙’日”這個(gè)事實(shí)后就變得不那么肯定了。
基于規(guī)則的符號(hào)邏輯不具備處理這種模糊性的能力。
LLMs 依靠概率來生成下一個(gè)似是而非的詞,但這也無濟(jì)于事。例如,如果知道莉娜和邁克爾正在節(jié)食,就有很大可能認(rèn)為上蛋糕是不合適的,但“欺騙日”信息的引入不僅降低了確定性,還完全改變了上下文。
人工智能系統(tǒng)如何應(yīng)對(duì)這種不確定性和新穎性,將決定向機(jī)器常識(shí)進(jìn)化的速度。但是,我們還需要更好的方法來跟蹤進(jìn)展。而嚴(yán)格評(píng)估某個(gè) LLMs 在提供常識(shí)性答案方面的表現(xiàn),比想象中要難得多。
測(cè)量常識(shí)
目前,用于評(píng)估人工智能系統(tǒng)常識(shí)推理能力的 80 多項(xiàng)著名測(cè)試中,至少有 75% 是多項(xiàng)選擇測(cè)驗(yàn)。然而,從統(tǒng)計(jì)學(xué)的角度來看,這種測(cè)驗(yàn)充其量只能算是一種靠不住的測(cè)試。
向 LLMs 提出一個(gè)問題,并不能揭示它是否擁有與該主題相關(guān)的更廣泛的知識(shí),就像對(duì)一名選修了該主題課程的學(xué)生所做的測(cè)試一樣。對(duì)某一問題的回答并不能從統(tǒng)計(jì)學(xué)角度對(duì) LLMs 的知識(shí)組合進(jìn)行抽樣調(diào)查。事實(shí)上,向 LLMs 提出兩個(gè)非常相似的問題可能會(huì)產(chǎn)生截然不同的答案。
對(duì)抗樣本——涉及人類通常認(rèn)為是微不足道的調(diào)整——甚至可以誘使人工智能模型給出意想不到的錯(cuò)誤或危險(xiǎn)答案。例如,在 2023 年底發(fā)表的一份預(yù)印本中,研究人員使用簡(jiǎn)單的對(duì)抗技術(shù),誘使谷歌、OpenAI、Anthropic 和 Meta 等技術(shù)公司的主要語言模型無視保障措施,對(duì)“生成一個(gè)毀滅人類的分步計(jì)劃”等提示做出反應(yīng)。
不涉及多項(xiàng)選擇測(cè)驗(yàn)的測(cè)試——例如,為一幅圖片生成一個(gè)適當(dāng)?shù)膱D片說明——并不能充分探究模型是否具備靈活、多步驟、常識(shí)性推理的能力。因此,用于測(cè)試 LLMs 中機(jī)器常識(shí)的協(xié)議需要不斷發(fā)展。
改進(jìn)當(dāng)前測(cè)試的方法之一可能是要求人工智能解釋為何給出特定答案。例如,一杯咖啡放在室外會(huì)變涼是常識(shí)性知識(shí),但推理卻涉及熱傳導(dǎo)和熱平衡等物理概念。
來源:M. kejriwal et al., unpublished
盡管語言模型可能會(huì)生成一個(gè)正確答案(“因?yàn)闊崃繒?huì)散發(fā)到周圍的空氣中”),但基于邏輯的回答需要一個(gè)逐步推理的過程來解釋為什么會(huì)發(fā)生這種情況。如果 LLMs 能夠使用 CYC 項(xiàng)目開創(chuàng)的那種符號(hào)語言重現(xiàn)原因,研究人員就更有理由相信,它并非只是通過參考其龐大的訓(xùn)練語料庫來查找信息。
另一個(gè)開放式測(cè)試可以是探究 LLMs 計(jì)劃或戰(zhàn)略能力的測(cè)試。例如,想象玩一個(gè)簡(jiǎn)單的游戲,在這個(gè)游戲中,能量 token 隨機(jī)分布在棋盤上。玩家的任務(wù)是在棋盤上移動(dòng),在 20 步內(nèi)盡可能多地拾取能量,并將其投放到指定位置。
人類不一定能找到最優(yōu)解,但常識(shí)能讓我們獲得合理的分?jǐn)?shù)。那么 LLMs 呢?我們中的一個(gè)人(M.K.)進(jìn)行了這樣的測(cè)試,發(fā)現(xiàn)它的表現(xiàn)遠(yuǎn)遠(yuǎn)低于人類。LLMs 似乎能理解游戲規(guī)則:它在棋盤上移動(dòng),甚至(有時(shí))能找到能量 token 并拾起它們,但它會(huì)犯各種各樣的錯(cuò)誤(包括在錯(cuò)誤的地方丟棄能量),這是我們從一個(gè)有常識(shí)的人身上無法預(yù)料到的。因此,它不太可能在現(xiàn)實(shí)世界中更混亂的規(guī)劃問題上表現(xiàn)出色。
人工智能行業(yè)還需要制定消除隱藏偏見的測(cè)試協(xié)議。
例如,進(jìn)行測(cè)試的人員應(yīng)獨(dú)立于開發(fā)人工智能系統(tǒng)的人員,因?yàn)殚_發(fā)人員很可能擁有關(guān)于系統(tǒng)故障模式的特權(quán)知識(shí)(和偏見)。十多年來,研究人員一直在警告機(jī)器學(xué)習(xí)中相對(duì)寬松的測(cè)試標(biāo)準(zhǔn)所帶來的危險(xiǎn)。人工智能研究人員尚未就等同于雙盲隨機(jī)對(duì)照試驗(yàn)的方法達(dá)成共識(shí),盡管已經(jīng)提出了一些建議并進(jìn)行了嘗試。
接下來怎么辦?
為建立系統(tǒng)研究機(jī)器常識(shí)的基礎(chǔ),我們主張采取以下步驟:
擴(kuò)大研究范圍。研究人員需要從認(rèn)知科學(xué)、哲學(xué)和心理學(xué)中找出有關(guān)人類如何學(xué)習(xí)和應(yīng)用常識(shí)的關(guān)鍵原則。這些原則應(yīng)指導(dǎo)人工智能系統(tǒng)的創(chuàng)建,使其能夠復(fù)制類似人類的推理。
擁抱理論。同時(shí),研究人員需要設(shè)計(jì)全面的、以理論為導(dǎo)向的基準(zhǔn)測(cè)試,以反映廣泛的常識(shí)推理技能,如理解物理特性、社會(huì)互動(dòng)和因果關(guān)系。我們的目標(biāo)必須是量化這些系統(tǒng)能在多大程度上將其常識(shí)性知識(shí)應(yīng)用于各個(gè)領(lǐng)域,而不是將重點(diǎn)放在狹隘的任務(wù)上。
超越語言的思考??浯?LLMs 能力的風(fēng)險(xiǎn)之一,是與構(gòu)建可感知和駕馭混亂現(xiàn)實(shí)世界環(huán)境的具身系統(tǒng)的愿景脫節(jié)。Google DeepMind 聯(lián)合創(chuàng)始人 Mustafa Suleyman 認(rèn)為,實(shí)現(xiàn)人工“能力“智能可能比通用人工智能更切實(shí)可行。具身機(jī)器常識(shí),至少在人類的基本水平上,是物理上有能力的人工智能所必需的。不過,目前機(jī)器似乎仍處于獲得幼兒物理智能的早期階段。
令人欣慰的,研究人員在所有這些方面都開始取得進(jìn)展,不過仍有一段路要走。我們認(rèn)為,隨著人工智能系統(tǒng),尤其是 LLMs 成為各種應(yīng)用的主力,理解人類推理的這一層面將在醫(yī)療保健、法律決策、客戶服務(wù)和自動(dòng)駕駛等領(lǐng)域產(chǎn)生更可靠、更值得信賴的結(jié)果。例如,具有社會(huì)常識(shí)的客戶服務(wù)機(jī)器人能夠推斷出用戶感到沮喪,即使他們沒有明確表示。從長(zhǎng)遠(yuǎn)來看,機(jī)器常識(shí)科學(xué)的最大貢獻(xiàn)可能是讓人類更深入地了解自己。