版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

正確率僅15%,GPT-4遠(yuǎn)不如人類?

學(xué)術(shù)頭條
原創(chuàng)
一起見證人類探索征途上的每一個(gè)重大突破。
收藏

當(dāng)前,大型語(yǔ)言模型(LLMs)或許是通用人工智能(AGI)得以實(shí)現(xiàn)的“最優(yōu)解”。

然而,盡管大模型在流利性和知識(shí)廣度方面貌似已接近人類水平,但評(píng)估它們的挑戰(zhàn)日益突顯。隨著大模型的迅猛發(fā)展,一些傳統(tǒng)基準(zhǔn)已經(jīng)失效。因此,新的測(cè)評(píng)基準(zhǔn)亟需制定。

近日,來自 Meta、HuggingFace 和 AutoGPT 的研究團(tuán)隊(duì)共同提出了一個(gè)用于測(cè)試通用 AI 助手的基準(zhǔn)——GAIA,該基準(zhǔn)提出了現(xiàn)實(shí)世界中需要一系列基本能力的問題,如推理、多模態(tài)處理、網(wǎng)絡(luò)瀏覽和通用工具使用熟練技能。

研究團(tuán)隊(duì)表示,這些問題在概念上對(duì)人類來說非常簡(jiǎn)單,但對(duì)大多數(shù)大模型來說,卻很有挑戰(zhàn)性:一個(gè)直觀的數(shù)據(jù),人類回答這些問題的成功率為 92%,而即使是帶有插件的 GPT-4 僅有 15% 的成功率。這與近年來大模型在法律或化學(xué)等需要專業(yè)技能的任務(wù)中表現(xiàn)優(yōu)于人類的趨勢(shì)形成了鮮明對(duì)比。

相關(guān)研究論文以“GAIA:A Benchmark for General AI Assistants”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。

圖片

值得注意的是,GAIA 的理念偏離了當(dāng)前 AI 基準(zhǔn)的趨勢(shì),即瞄準(zhǔn)對(duì)人類來說越來越難的任務(wù)。研究團(tuán)隊(duì)認(rèn)為,AGI 的出現(xiàn)取決于系統(tǒng)能否在此類問題上表現(xiàn)出與普通人類似的魯棒性。

通用AI助手基準(zhǔn):與真實(shí)世界互動(dòng)

隨著大模型能力的提升,現(xiàn)有的評(píng)估基準(zhǔn)變得越來越難以滿足新模型的挑戰(zhàn),傳統(tǒng)的基準(zhǔn)測(cè)試很快就會(huì)被這些新模型超越。

在嘗試將大模型變成通用助手的過程中,目前的評(píng)估方法相對(duì)滯后。現(xiàn)有的評(píng)估主要依賴于封閉系統(tǒng)、特定 API 調(diào)用或者重新使用現(xiàn)有的評(píng)估數(shù)據(jù)集。然而,這些方法通常在封閉環(huán)境中進(jìn)行,可能評(píng)估的是助手學(xué)習(xí)使用特定 API 的程度,而不是在真實(shí)世界互動(dòng)中更通用的能力。

相比之下,GAIA 采用了與真實(shí)世界的互動(dòng)作為評(píng)測(cè)基準(zhǔn),并不限定可能的 API。還有其他一些方法也在探索通用助手的評(píng)估,但它們與 GAIA 的核心區(qū)別在于它們更關(guān)注當(dāng)前模型的能力,而不是未來的進(jìn)展。

據(jù)論文描述,GAIA 是一個(gè)測(cè)試 AI 系統(tǒng)通用助手問題的標(biāo)準(zhǔn),旨在避免 LLMs 評(píng)估中的各種問題。GAIA 包含由人類設(shè)計(jì)和標(biāo)注的 466 個(gè)問題。這些問題主要是文本形式的,有時(shí)還包含一些文件,比如圖像或電子表格。問題涵蓋了各種通用助手應(yīng)用場(chǎng)景,包括日常個(gè)人任務(wù)、科學(xué)問題和一般知識(shí)。問題設(shè)計(jì)成只有一個(gè)簡(jiǎn)短而正確的答案,因此很容易驗(yàn)證。使用 GAIA 只需要向 AI 助手提示這些問題,并附帶相關(guān)的證據(jù)(如果有的話)。

圖片

另外,使用 GAIA 評(píng)估 LLMs 只需要具備向模型提問的能力,也就是說,需要能夠訪問 API。研究人員在向模型提問之前使用了一個(gè)前綴提示。為了方便提取答案,他們還在前綴提示中規(guī)定了一種格式。

隨后,他們對(duì) GPT4 進(jìn)行了評(píng)估,包括有插件和沒有插件的情況,還評(píng)估了以 GPT4 為后端的AutoGPT。目前,GPT4 需要手動(dòng)選擇插件,而 AutoGPT 能夠自動(dòng)進(jìn)行這個(gè)選擇。

結(jié)果表明,GAIA 允許清晰地對(duì)能力強(qiáng)的助手進(jìn)行排名,同時(shí)在未來的幾個(gè)月甚至幾年中仍然有很大的改進(jìn)空間。

圖片

從圖中可以看出,人類的網(wǎng)絡(luò)搜索在 Level 1 方面表現(xiàn)良好,但在更復(fù)雜的查詢上效果不佳,而且速度稍慢。與沒有插件的 GPT-4 相比,使用插件的 GPT-4 在提高答案準(zhǔn)確性和執(zhí)行計(jì)劃方面表現(xiàn)更好。AutoGPT-4 自動(dòng)使用工具,但在 Level 2 和甚至 Level 1 方面的表現(xiàn)令人失望,可能是由于其依賴 GPT-4 API 的方式??傮w而言,與使用插件的 GPT-4 合作的人類似乎在分?jǐn)?shù)和時(shí)間之間找到了最佳的平衡。

評(píng)估 AI 助手潛力的第一步

GAIA 的出現(xiàn)讓我們重新思考當(dāng)前和未來 AI 系統(tǒng)評(píng)估的范式。

封閉在 API 后面的模型可能會(huì)隨著時(shí)間的推移而改變,這意味著在不同時(shí)間點(diǎn)進(jìn)行的評(píng)估可能無(wú)法復(fù)制或重現(xiàn)。另外,問題可能會(huì)更加復(fù)雜,因?yàn)橄?ChatGPT 插件這樣的工具和它們的功能會(huì)定期更新,而不是通過 ChatGPT 的 API 進(jìn)行訪問。

由于研究人員在評(píng)估模型性能時(shí)通常依賴于真實(shí)世界的基準(zhǔn),而這些基準(zhǔn)可能會(huì)隨著時(shí)間的推移而改變,所以實(shí)現(xiàn)可重現(xiàn)性可能會(huì)變得更加困難。然而,GAIA 對(duì)于生成隨機(jī)性的處理是魯棒的,因?yàn)樗魂P(guān)注最終的答案,即只接受一個(gè)正確的響應(yīng)進(jìn)行評(píng)估。

此外,相較于規(guī)模更大但多項(xiàng)選擇問題的數(shù)據(jù)集,GAIA 注重問題質(zhì)量而非數(shù)量。GAIA 的持續(xù)發(fā)展有望成為更全面評(píng)估 AI 系統(tǒng)泛化能力和穩(wěn)健性的關(guān)鍵組成部分。

GAIA 任務(wù)可能涉及調(diào)用各種模塊來完成,比如圖像分類器可能返回錯(cuò)誤的標(biāo)簽。有些人可能會(huì)覺得這樣的評(píng)估有些含糊,因?yàn)?GAIA 看待系統(tǒng)為一個(gè)整體,而不是把錯(cuò)誤歸因于系統(tǒng)的子部分,比如網(wǎng)絡(luò)瀏覽或視覺模塊。然而,將 LLMs 與其他工具緊密結(jié)合以完成所有任務(wù)可能不是可持續(xù)的方法。未來的模型可能會(huì)在語(yǔ)言模型和其他能力之間更加集成,如視覺語(yǔ)言模型。

GAIA 的目標(biāo)是評(píng)估整個(gè) AI 系統(tǒng),而不僅僅是特定的架構(gòu)標(biāo)準(zhǔn)。更廣泛地說,對(duì)于復(fù)雜生成的自動(dòng)、事實(shí)和可解釋的評(píng)估一直是生成式 AI 中的一個(gè)長(zhǎng)期難題。

目前的評(píng)估方法可能存在一些限制,未來可能需要更復(fù)雜的方法,比如結(jié)合多模態(tài)系統(tǒng),通過對(duì)圖像進(jìn)行復(fù)雜的序列修改,并在自然語(yǔ)言中提出明確問題的方式來改進(jìn)生成模型的評(píng)估。

盡管深度學(xué)習(xí)在各領(lǐng)域取得了進(jìn)展,但全自動(dòng)化目前仍面臨無(wú)法預(yù)測(cè)的失敗,如自動(dòng)駕駛汽車的挑戰(zhàn)。解決 GAIA 問題需要全自動(dòng)化,但這可能導(dǎo)致社會(huì)經(jīng)濟(jì)格局的改變,存在技術(shù)所有者主導(dǎo)價(jià)值捕獲的風(fēng)險(xiǎn)。

另外,GAIA 也存在一些局限。首先,GAIA 無(wú)法評(píng)估不同路徑通向正確答案的情況。論文作者建議未來考慮人類和模型評(píng)估,以彌補(bǔ)這一缺陷。

此外,由于 OpenAI 的 API 未提供詳細(xì)工具調(diào)用日志,當(dāng)前只評(píng)估了具有工具訪問權(quán)限的最強(qiáng)大的語(yǔ)言模型。研究團(tuán)隊(duì)希望在未來能夠在開源領(lǐng)域添加其他具備足夠工具使用能力和日志記錄的模型。

為了創(chuàng)建現(xiàn)實(shí)且易于使用的基準(zhǔn),需要兩輪注釋,第一輪由注釋者設(shè)計(jì)明確問題,第二輪由兩位獨(dú)立注釋者回答問題并排除歧義,盡管這過程徹底,仍可能存在歧義。

最后,GAIA 的一個(gè)重大限制在于它缺乏語(yǔ)言多樣性:所有問題只能用“標(biāo)準(zhǔn)”英語(yǔ)提出,而且許多問題主要依賴于英語(yǔ)網(wǎng)頁(yè)。

因此,GAIA 只是評(píng)估通用 AI 助手潛力的第一步,不應(yīng)視為它們成功的絕對(duì)證明。

參考鏈接:

https://arxiv.org/abs/2311.12983

作者:閆一米

編輯:學(xué)術(shù)君

評(píng)論
演繹無(wú)限精彩
大學(xué)士級(jí)
該研究表明,GPT-4在推理能力方面依舊存在局限性。這意味著即使在技術(shù)高度發(fā)達(dá)的情況下,人工智能也可能無(wú)法完全模仿或超越人類的認(rèn)知過程。
2023-11-26
天津.諸葛
少師級(jí)
盡管深度學(xué)習(xí)在各領(lǐng)域取得了進(jìn)展,但全自動(dòng)化目前仍面臨無(wú)法預(yù)測(cè)的失敗,如自動(dòng)駕駛汽車的挑戰(zhàn),AI的發(fā)展仍有很大的空間。
2023-11-26
傳承解惑
大學(xué)士級(jí)
解決 GAIA 問題需要全自動(dòng)化,這可能導(dǎo)致社會(huì)經(jīng)濟(jì)格局改變,存在技術(shù)所有者主導(dǎo)價(jià)值捕獲的風(fēng)險(xiǎn)。
2023-11-26