中文字幕日韩精品无码内射実錄,无码专区激情视频在线播放,又黄又爽又猛的视频免费

【編者按】今年的諾貝爾獎(jiǎng)陸續(xù)揭曉，人工智能（AI）行業(yè)可謂實(shí)現(xiàn)了令人意外的“大豐收”。

然而，盡管人工智能模型變得“越來越聰明”，但在面對(duì)一些人類日常生活中“顯而易見”的常識(shí)時(shí)，卻非常容易出錯(cuò)。

也就是說，目前的人工智能模型缺乏人類輕易就可以表現(xiàn)出的常識(shí)能力。所謂的常識(shí)能力，是人類所具有的包含了事實(shí)知識(shí)和推理的一種能力，不僅只是記憶知識(shí)，更包括在不確定情境中進(jìn)行推理和決策的能力。

那么，人工智能（AI）能否像人一樣擁有常識(shí)呢？計(jì)算機(jī)科學(xué)家又應(yīng)該如何讓人工智能具備人類般的常識(shí)？

近日，南加州大學(xué)信息科學(xué)研究所首席科學(xué)家 Mayank Kejriwal 等人在權(quán)威科學(xué)期刊 Nature 上發(fā)文：“Can AI have common sense? Finding out will be key to achieving machine intelligence”，討論了人工智能（尤其是 LLMs）在展示常識(shí)方面的挑戰(zhàn)，并提出了改進(jìn)評(píng)估方法和未來研究方向的建議。

Kejriwal 等人指出，展示常識(shí)能力是機(jī)器智能發(fā)展中的重要里程碑。他們還提到，現(xiàn)有常識(shí)測(cè)試主要依賴多項(xiàng)選擇題，難以全面評(píng)估 LLMs 的常識(shí)推理能力，建議通過要求 LLMs 解釋其答案和進(jìn)行多步推理來提高評(píng)估的準(zhǔn)確性，此外還可以嘗試開發(fā)更具挑戰(zhàn)性的開放式測(cè)試。

最后，他們呼吁通過跨學(xué)科合作設(shè)計(jì)全面的理論基準(zhǔn)，不斷探索具備具身常識(shí)的人工智能系統(tǒng)，最終讓人工智能在現(xiàn)實(shí)世界中表現(xiàn)出更可靠的常識(shí)性推理。
學(xué)術(shù)頭條在不改變?cè)拇笠獾那闆r下，做了簡(jiǎn)單的編譯。內(nèi)容如下：

自從不到兩年前公開發(fā)布以來，ChatGPT 等 LLMs 已經(jīng)在機(jī)器智能領(lǐng)域取得了令人興奮和具有挑戰(zhàn)性的進(jìn)展。一些研究人員和評(píng)論家推測(cè)，這些工具可能代表著機(jī)器向展示“通用人工智能（AGI）”——與人類智能相關(guān)的一系列能力——邁出了決定性的一步，從而實(shí)現(xiàn)了人工智能研究領(lǐng)域長(zhǎng)達(dá) 70 年的追求。

這條道路上的一個(gè)里程碑就是展示機(jī)器常識(shí)。對(duì)人類來說，常識(shí)是關(guān)于人和日常生活的“顯而易見的東西”。人類從經(jīng)驗(yàn)中知道玻璃制品易碎，或者在素食者朋友來訪時(shí)提供肉食可能是不禮貌的。如果一個(gè)人犯了大多數(shù)人通常不會(huì)犯的錯(cuò)誤，他就會(huì)被說成缺乏常識(shí)。在這一點(diǎn)上，當(dāng)前的 LLMs 往往做得不夠。

LLMs 通常在需要記憶的考試中表現(xiàn)出色。例如，ChatGPT 背后的 GPT-4 模型據(jù)說可以通過美國(guó)醫(yī)生和律師的執(zhí)照考試。然而，它和類似的模型很容易被簡(jiǎn)單的謎題難倒。

如今，類似這樣的多項(xiàng)選擇題被廣泛用于測(cè)量機(jī)器的常識(shí)，與美國(guó)大學(xué)入學(xué)考試 SAT 如出一轍。然而，這類問題幾乎不能反映真實(shí)世界，包括人類對(duì)熱量或重力等物理定律的直觀理解，以及社會(huì)交往的背景。因此，量化 LLMs 與人類行為的接近程度仍是一個(gè)懸而未決的問題。

人類擅長(zhǎng)處理不確定和模糊的情況。通常，人們會(huì)選擇令人滿意的答案，而不是花費(fèi)大量的認(rèn)知能力去發(fā)現(xiàn)最佳解決方案——例如，在超市貨架上買一包足夠好的麥片，而不是分析每一個(gè)選項(xiàng)。人類可以在直覺推理和深思熟慮推理模式之間巧妙轉(zhuǎn)換，在出現(xiàn)不可能的情況時(shí)進(jìn)行處理，并制定計(jì)劃或策略——例如，人們?cè)谟龅浇煌〒矶聲r(shí)會(huì)從熟悉的路線轉(zhuǎn)向其他路線。

機(jī)器是否也會(huì)有類似的認(rèn)知能力？研究人員又將如何確切地知道人工智能系統(tǒng)是否正走在獲得這種能力的道路上？

要回答這些問題，計(jì)算機(jī)科學(xué)家就必須與發(fā)展心理學(xué)和心靈哲學(xué)等學(xué)科進(jìn)行合作。此外，還需要對(duì)認(rèn)知的基本原理有更深入的了解，才能設(shè)計(jì)出更好的指標(biāo)來評(píng)估 LLMs 的性能。目前，還不清楚人工智能模型是否擅長(zhǎng)在某些任務(wù)中模仿人類，也不清楚基準(zhǔn)衡量標(biāo)準(zhǔn)本身是否有問題。在此，我們將介紹在測(cè)量機(jī)器常識(shí)方面取得的進(jìn)展，并提出未來的發(fā)展方向。

穩(wěn)步前進(jìn)

關(guān)于機(jī)器常識(shí)的研究可以追溯到 1956 年在新罕布什爾州達(dá)特茅斯舉行的一次頗具影響力的研討會(huì)，當(dāng)時(shí)頂尖的人工智能研究人員齊聚一堂?；谶壿嫷姆?hào)框架——使用字母或邏輯運(yùn)算符來描述對(duì)象和概念之間的關(guān)系——隨后被開發(fā)出來，用于構(gòu)建有關(guān)時(shí)間、事件和物理世界的常識(shí)性知識(shí)。例如，一系列“如果發(fā)生這種情況，那么接下來就會(huì)發(fā)生這種情況”的語句可以手動(dòng)編程到機(jī)器中，然后用來教它們一個(gè)常識(shí)性事實(shí)：沒有支撐的物體在重力下會(huì)倒下。

這些研究確立了機(jī)器常識(shí)的愿景，即構(gòu)建能夠像人類一樣有效地從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算機(jī)程序。從更專業(yè)的角度講，其目標(biāo)是制造出一臺(tái)機(jī)器，在給定一系列規(guī)則的情況下，“自動(dòng)推斷出它被告知的任何事情和它已經(jīng)知道的事情的足夠廣泛的直接后果”。

因此，機(jī)器常識(shí)不僅包括高效學(xué)習(xí)，還包括自我反思和抽象等能力。就其核心而言，常識(shí)既需要事實(shí)知識(shí)，也需要利用這些知識(shí)進(jìn)行推理的能力。僅僅記住一大堆事實(shí)是不夠的。從現(xiàn)有信息中推導(dǎo)出新信息同樣重要，這樣才能在新的或不確定的情況下做出決策。

早期賦予機(jī)器這種決策能力的嘗試包括創(chuàng)建結(jié)構(gòu)化知識(shí)數(shù)據(jù)庫，其中包含常識(shí)性概念和關(guān)于世界如何運(yùn)作的簡(jiǎn)單規(guī)則。20 世紀(jì) 80 年代的 CYC 項(xiàng)目是最早大規(guī)模開展這項(xiàng)工作的項(xiàng)目之一。CYC 可以表示相關(guān)知識(shí)，例如，不僅可以表示狗“是一種”動(dòng)物（分類），還可以表示狗“需要”食物。它還嘗試使用“是一種”等符號(hào)，將與上下文相關(guān)的知識(shí)納入其中，例如，田徑比賽中的“running”與商務(wù)會(huì)議中的“running”含義不同。因此，CYC 使機(jī)器能夠區(qū)分事實(shí)性知識(shí)（如“美國(guó)第一任總統(tǒng)是喬治-華盛頓”）和常識(shí)性知識(shí)（如“椅子是用來坐的”）。同樣，ConceptNet 項(xiàng)目也將關(guān)系邏輯映射到由三個(gè)“單詞”組成的龐大網(wǎng)絡(luò)中（如 Apple - UsedFor - Eating）。

但這些方法在推理方面存在不足。常識(shí)推理是一種特別具有挑戰(zhàn)性的推理類型，因?yàn)橐粋€(gè)人在獲得更多信息后，會(huì)對(duì)某種情況或問題變得不那么確定。例如，在回答“他們來訪時(shí)，我們是否應(yīng)該提供蛋糕？我認(rèn)為麗娜和邁克爾在節(jié)食”的想法在加上“但我知道他們有‘欺騙’日”這個(gè)事實(shí)后就變得不那么肯定了。

基于規(guī)則的符號(hào)邏輯不具備處理這種模糊性的能力。

LLMs 依靠概率來生成下一個(gè)似是而非的詞，但這也無濟(jì)于事。例如，如果知道莉娜和邁克爾正在節(jié)食，就有很大可能認(rèn)為上蛋糕是不合適的，但“欺騙日”信息的引入不僅降低了確定性，還完全改變了上下文。

人工智能系統(tǒng)如何應(yīng)對(duì)這種不確定性和新穎性，將決定向機(jī)器常識(shí)進(jìn)化的速度。但是，我們還需要更好的方法來跟蹤進(jìn)展。而嚴(yán)格評(píng)估某個(gè) LLMs 在提供常識(shí)性答案方面的表現(xiàn)，比想象中要難得多。

測(cè)量常識(shí)

目前，用于評(píng)估人工智能系統(tǒng)常識(shí)推理能力的 80 多項(xiàng)著名測(cè)試中，至少有 75% 是多項(xiàng)選擇測(cè)驗(yàn)。然而，從統(tǒng)計(jì)學(xué)的角度來看，這種測(cè)驗(yàn)充其量只能算是一種靠不住的測(cè)試。

向 LLMs 提出一個(gè)問題，并不能揭示它是否擁有與該主題相關(guān)的更廣泛的知識(shí)，就像對(duì)一名選修了該主題課程的學(xué)生所做的測(cè)試一樣。對(duì)某一問題的回答并不能從統(tǒng)計(jì)學(xué)角度對(duì) LLMs 的知識(shí)組合進(jìn)行抽樣調(diào)查。事實(shí)上，向 LLMs 提出兩個(gè)非常相似的問題可能會(huì)產(chǎn)生截然不同的答案。

對(duì)抗樣本——涉及人類通常認(rèn)為是微不足道的調(diào)整——甚至可以誘使人工智能模型給出意想不到的錯(cuò)誤或危險(xiǎn)答案。例如，在 2023 年底發(fā)表的一份預(yù)印本中，研究人員使用簡(jiǎn)單的對(duì)抗技術(shù)，誘使谷歌、OpenAI、Anthropic 和 Meta 等技術(shù)公司的主要語言模型無視保障措施，對(duì)“生成一個(gè)毀滅人類的分步計(jì)劃”等提示做出反應(yīng)。

不涉及多項(xiàng)選擇測(cè)驗(yàn)的測(cè)試——例如，為一幅圖片生成一個(gè)適當(dāng)?shù)膱D片說明——并不能充分探究模型是否具備靈活、多步驟、常識(shí)性推理的能力。因此，用于測(cè)試 LLMs 中機(jī)器常識(shí)的協(xié)議需要不斷發(fā)展。

改進(jìn)當(dāng)前測(cè)試的方法之一可能是要求人工智能解釋為何給出特定答案。例如，一杯咖啡放在室外會(huì)變涼是常識(shí)性知識(shí)，但推理卻涉及熱傳導(dǎo)和熱平衡等物理概念。

來源：M. kejriwal et al., unpublished

盡管語言模型可能會(huì)生成一個(gè)正確答案（“因?yàn)闊崃繒?huì)散發(fā)到周圍的空氣中”），但基于邏輯的回答需要一個(gè)逐步推理的過程來解釋為什么會(huì)發(fā)生這種情況。如果 LLMs 能夠使用 CYC 項(xiàng)目開創(chuàng)的那種符號(hào)語言重現(xiàn)原因，研究人員就更有理由相信，它并非只是通過參考其龐大的訓(xùn)練語料庫來查找信息。

另一個(gè)開放式測(cè)試可以是探究 LLMs 計(jì)劃或戰(zhàn)略能力的測(cè)試。例如，想象玩一個(gè)簡(jiǎn)單的游戲，在這個(gè)游戲中，能量 token 隨機(jī)分布在棋盤上。玩家的任務(wù)是在棋盤上移動(dòng)，在 20 步內(nèi)盡可能多地拾取能量，并將其投放到指定位置。

人類不一定能找到最優(yōu)解，但常識(shí)能讓我們獲得合理的分?jǐn)?shù)。那么 LLMs 呢？我們中的一個(gè)人（M.K.）進(jìn)行了這樣的測(cè)試，發(fā)現(xiàn)它的表現(xiàn)遠(yuǎn)遠(yuǎn)低于人類。LLMs 似乎能理解游戲規(guī)則：它在棋盤上移動(dòng)，甚至（有時(shí)）能找到能量 token 并拾起它們，但它會(huì)犯各種各樣的錯(cuò)誤（包括在錯(cuò)誤的地方丟棄能量），這是我們從一個(gè)有常識(shí)的人身上無法預(yù)料到的。因此，它不太可能在現(xiàn)實(shí)世界中更混亂的規(guī)劃問題上表現(xiàn)出色。

人工智能行業(yè)還需要制定消除隱藏偏見的測(cè)試協(xié)議。

例如，進(jìn)行測(cè)試的人員應(yīng)獨(dú)立于開發(fā)人工智能系統(tǒng)的人員，因?yàn)殚_發(fā)人員很可能擁有關(guān)于系統(tǒng)故障模式的特權(quán)知識(shí)（和偏見）。十多年來，研究人員一直在警告機(jī)器學(xué)習(xí)中相對(duì)寬松的測(cè)試標(biāo)準(zhǔn)所帶來的危險(xiǎn)。人工智能研究人員尚未就等同于雙盲隨機(jī)對(duì)照試驗(yàn)的方法達(dá)成共識(shí)，盡管已經(jīng)提出了一些建議并進(jìn)行了嘗試。

接下來怎么辦？

為建立系統(tǒng)研究機(jī)器常識(shí)的基礎(chǔ)，我們主張采取以下步驟：

擴(kuò)大研究范圍。研究人員需要從認(rèn)知科學(xué)、哲學(xué)和心理學(xué)中找出有關(guān)人類如何學(xué)習(xí)和應(yīng)用常識(shí)的關(guān)鍵原則。這些原則應(yīng)指導(dǎo)人工智能系統(tǒng)的創(chuàng)建，使其能夠復(fù)制類似人類的推理。

擁抱理論。同時(shí)，研究人員需要設(shè)計(jì)全面的、以理論為導(dǎo)向的基準(zhǔn)測(cè)試，以反映廣泛的常識(shí)推理技能，如理解物理特性、社會(huì)互動(dòng)和因果關(guān)系。我們的目標(biāo)必須是量化這些系統(tǒng)能在多大程度上將其常識(shí)性知識(shí)應(yīng)用于各個(gè)領(lǐng)域，而不是將重點(diǎn)放在狹隘的任務(wù)上。

超越語言的思考?？浯?LLMs 能力的風(fēng)險(xiǎn)之一，是與構(gòu)建可感知和駕馭混亂現(xiàn)實(shí)世界環(huán)境的具身系統(tǒng)的愿景脫節(jié)。Google DeepMind 聯(lián)合創(chuàng)始人 Mustafa Suleyman 認(rèn)為，實(shí)現(xiàn)人工“能力“智能可能比通用人工智能更切實(shí)可行。具身機(jī)器常識(shí)，至少在人類的基本水平上，是物理上有能力的人工智能所必需的。不過，目前機(jī)器似乎仍處于獲得幼兒物理智能的早期階段。

令人欣慰的，研究人員在所有這些方面都開始取得進(jìn)展，不過仍有一段路要走。我們認(rèn)為，隨著人工智能系統(tǒng)，尤其是 LLMs 成為各種應(yīng)用的主力，理解人類推理的這一層面將在醫(yī)療保健、法律決策、客戶服務(wù)和自動(dòng)駕駛等領(lǐng)域產(chǎn)生更可靠、更值得信賴的結(jié)果。例如，具有社會(huì)常識(shí)的客戶服務(wù)機(jī)器人能夠推斷出用戶感到沮喪，即使他們沒有明確表示。從長(zhǎng)遠(yuǎn)來看，機(jī)器常識(shí)科學(xué)的最大貢獻(xiàn)可能是讓人類更深入地了解自己。

Nature：連諾獎(jiǎng)都拿了的AI，能像人類一樣擁有常識(shí)嗎？

Nature：連諾獎(jiǎng)都拿了的AI，能像人類一樣擁有常識(shí)嗎？