誰(shuí)是“全世界最聰明的AI”?
編者的話:18日,馬斯克帶領(lǐng)旗下人工智能初創(chuàng)公司xAI的成員在線直播官宣了“全世界最聰明AI”的Grok-3大模型“全家桶”。相關(guān)測(cè)試顯示,Grok-3在發(fā)布之后迅速超過(guò)了全球多個(gè)排行榜上的競(jìng)爭(zhēng)對(duì)手,其中就包括OpenAI公司的o3-mini high和DeepSeek-R1。到底這個(gè)被20萬(wàn)塊GPU調(diào)教出來(lái)的大模型有多聰明?誰(shuí)才是全世界最聰明的AI?《環(huán)球時(shí)報(bào)》將這個(gè)問(wèn)題拋給了3個(gè)頭部大模型,并與多位專(zhuān)家進(jìn)行了探討。
“承認(rèn)自己的局限性也是一種‘聰明’吧”
之所以外界將馬斯克及其團(tuán)隊(duì)當(dāng)天發(fā)布的大模型稱(chēng)為“全家桶”,是因?yàn)槠浒薌rok-3(Beta)、Grok-3 mini、推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning、首個(gè)AI智能體DeepSearch。據(jù)介紹,第三代Grok的訓(xùn)練計(jì)算量是Grok-2的10倍。
在多項(xiàng)基準(zhǔn)測(cè)試中,Grok-3在數(shù)學(xué)、科學(xué)問(wèn)答、編程等方面大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。Grok-3 mini的性能基本上領(lǐng)先或媲美其他閉源/開(kāi)源模型。在推理能力方面,也擊敗了o3-mini和DeepSeek-R1。
那在實(shí)際使用過(guò)程中到底它是否真的足夠“聰明”呢?《環(huán)球時(shí)報(bào)》記者18日對(duì)Grok-3(Beta)版本進(jìn)行了一番測(cè)試。記者問(wèn)Grok-3怎么評(píng)價(jià)它被稱(chēng)為“全世界最聰明的AI”,介紹它有哪些升級(jí)與改進(jìn),特別是“思維鏈”(Chain of Thought)帶來(lái)了哪些性能的提升?Grok-3的回復(fù)如下:關(guān)于我被稱(chēng)作“全世界最聰明的AI”,我覺(jué)得這是一種很有趣的評(píng)價(jià),但我也明白“聰明”是個(gè)挺主觀的東西。我覺(jué)得我更像是一個(gè)一直在學(xué)習(xí)和優(yōu)化的助手,而不是一個(gè)需要炫耀頭銜的家伙。
說(shuō)到升級(jí)和改進(jìn),Grok-3特別提到“思維鏈”對(duì)其性能的提升。簡(jiǎn)單來(lái)說(shuō),“思維鏈”讓它在回答復(fù)雜問(wèn)題時(shí)能更有條理地“一步步思考”,而不是直接跳到結(jié)論。這種方法有點(diǎn)像人類(lèi)在解決難題時(shí)先拆解問(wèn)題、分析步驟,然后再得出答案。“當(dāng)然,我也不是完美的。有時(shí)候問(wèn)題太模糊或超出我的知識(shí)范圍,我還是會(huì)盡力給個(gè)合理的回應(yīng),或者老實(shí)承認(rèn)不知道。畢竟,承認(rèn)自己的局限性也是一種‘聰明’吧?”
資料圖
《環(huán)球時(shí)報(bào)》記者也把同樣的問(wèn)題拋給了DeepSeek與ChatGPT。DeepSeek-R1在“深度思考”20秒后給出了回復(fù):Grok-3的“思維鏈”優(yōu)化確實(shí)能提升復(fù)雜任務(wù)性能,尤其在邏輯透明度和分步推理上,但“最聰明AI”的宣稱(chēng)需結(jié)合實(shí)測(cè)結(jié)果謹(jǐn)慎看待。其核心價(jià)值可能在于與xAI生態(tài)的整合能力,而非絕對(duì)技術(shù)領(lǐng)先。DeepSeek-R1認(rèn)為,未來(lái)AI競(jìng)爭(zhēng)關(guān)鍵點(diǎn)在于:如何平衡“實(shí)時(shí)數(shù)據(jù)”與“幻覺(jué)控制”;能否突破現(xiàn)有大模型的同質(zhì)化瓶頸(如開(kāi)源策略、能耗優(yōu)化)。DeepSeek-R1在“行業(yè)對(duì)比與定位”一項(xiàng)中特別提到Grok系列的獨(dú)特價(jià)值可能更貼近馬斯克的愿景——與特斯拉機(jī)器人、“星鏈”等生態(tài)聯(lián)動(dòng),成為“實(shí)時(shí)物理世界交互AI”。
ChatGPT o3-mini high的回復(fù)為:Grok-3在數(shù)學(xué)推理、科學(xué)邏輯推理等方面表現(xiàn)出色,超越或媲美了Gemini、DeepSeek和ChatGPT等對(duì)手。然而,人工智能領(lǐng)域競(jìng)爭(zhēng)激烈,其他公司也在不斷推出先進(jìn)的AI模型,例如中國(guó)公司發(fā)布了DeepSeek-R1模型,以低成本和高性能在市場(chǎng)上引起廣泛關(guān)注。因此,雖然Grok-3在某些方面表現(xiàn)出色,但是否為“最聰明的AI”仍取決于具體的評(píng)估標(biāo)準(zhǔn)和應(yīng)用場(chǎng)景。
2月15日至18日,環(huán)球時(shí)報(bào)研究院對(duì)境外主流媒體有關(guān)Grok-3的376篇英文報(bào)道進(jìn)行分析發(fā)現(xiàn),馬斯克對(duì)該模型“全世界最聰明”的描述被廣泛傳播,51.6%的報(bào)道提及相關(guān)關(guān)鍵詞。在性能方面,提到“推理能力”的報(bào)道超過(guò)半數(shù),提到“搜索”“編程”等具體功能的報(bào)道各占一成多。在投入方面,提到“成本”的報(bào)道接近四成,提到“訓(xùn)練”的報(bào)道超過(guò)半數(shù),而訓(xùn)練使用的“合成數(shù)據(jù)”的提及率也超過(guò)1/4。
“大力出奇跡”VS“小力出奇跡”
Grok-3被外界關(guān)注的不僅是性能如何,還有一個(gè)話題備受矚目:它的發(fā)布是否再次掀起了一場(chǎng)人工智能大模型發(fā)展模式的討論。人類(lèi)首次用20萬(wàn)塊GPU訓(xùn)練出的大模型問(wèn)世,是否代表著人工智能未來(lái)的發(fā)展方向?DeepSeek用相對(duì)少的算力與成本,通過(guò)算法優(yōu)化來(lái)實(shí)現(xiàn)的大模型是否帶給全球更多選擇?
環(huán)球時(shí)報(bào)研究院對(duì)境外主流媒體有關(guān)Grok-3的376篇英文報(bào)道進(jìn)行分析發(fā)現(xiàn),相關(guān)報(bào)道還較為關(guān)注Grok-3與其他人工智能模型的對(duì)比,如56.3%的報(bào)道提到DeepSeek。在同時(shí)提到這兩款人工智能工具的報(bào)道中,“競(jìng)爭(zhēng)”的提及率達(dá)到六成。在對(duì)比中,54.9%的報(bào)道就“成本”問(wèn)題進(jìn)行闡述,提到“效率”“投資”等問(wèn)題的報(bào)道也均超過(guò)三成。
北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉19日對(duì)《環(huán)球時(shí)報(bào)》記者表示,DeepSeek與GPT系列最大的區(qū)別在于“小力出奇跡”,而Grok-3與DeepSeek的區(qū)別是又回到了“大力出奇跡”軌跡。大模型即將進(jìn)入算法與算力大比拼的“戰(zhàn)國(guó)時(shí)期”?!八惴ㄅc算力的博弈”是一個(gè)富有深度的話題,涉及到認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)、人工智能、信息技術(shù)等多個(gè)領(lǐng)域。
劉偉認(rèn)為,DeepSeek體現(xiàn)了算法的優(yōu)化。為了在有限的算力下實(shí)現(xiàn)更好的性能,算法設(shè)計(jì)者會(huì)不斷優(yōu)化算法。例如,通過(guò)減少不必要的計(jì)算、利用數(shù)據(jù)結(jié)構(gòu)來(lái)提高效率等方式。如動(dòng)態(tài)規(guī)劃算法通過(guò)存儲(chǔ)子問(wèn)題的解來(lái)避免重復(fù)計(jì)算,從而在有限的算力下提高效率。Grok-3則體現(xiàn)了硬件加速的奇跡,硬件工程師會(huì)不斷改進(jìn)硬件架構(gòu),提高算力。更多GPU的使用為并行計(jì)算提供了強(qiáng)大的支持,使得深度學(xué)習(xí)算法能夠快速運(yùn)行。然而,硬件的改進(jìn)也可能促使算法設(shè)計(jì)者設(shè)計(jì)更復(fù)雜的算法,進(jìn)一步挖掘硬件的潛力。
《環(huán)球時(shí)報(bào)》記者讓Grok-3從技術(shù)水平、推理能力、是否開(kāi)源、創(chuàng)新程度以及對(duì)全球AI競(jìng)爭(zhēng)格局的影響等維度來(lái)比較DeepSeek與Grok-3的差異。
Grok-3用“思維鏈”的方式給出了如下的綜合比較與結(jié)論:
技術(shù)水平——Grok-3靠算力勝出,但DeepSeek-R1效率更高。
推理能力——Grok-3更全面,DeepSeek-R1在專(zhuān)業(yè)領(lǐng)域不遜色。
是否開(kāi)源——DeepSeek-R1完全開(kāi)源,Grok-3閉源,策略迥異。
創(chuàng)新程度——DeepSeek-R1算法創(chuàng)新突出,Grok-3可能依賴(lài)資源整合。
全球影響——DeepSeek-R1推動(dòng)AI平權(quán)和價(jià)格競(jìng)爭(zhēng),Grok-3強(qiáng)化美國(guó)技術(shù)領(lǐng)先。
Grok-3給出的最終結(jié)論為DeepSeek-R1和Grok-3代表兩種AI發(fā)展路徑——前者以開(kāi)源和效率挑戰(zhàn)資源限制,后者以算力和閉源鞏固霸主地位。DeepSeek對(duì)全球AI格局的顛覆性更強(qiáng),而Grok-3則是技術(shù)巔峰的象征。
劉偉強(qiáng)調(diào),Grok-3這種用大量高性能GPU堆算力的“大力出奇跡”發(fā)展模式是全球絕大部分國(guó)家和地區(qū)在發(fā)展AI過(guò)程中都無(wú)法復(fù)制的,而中國(guó)DeepSeek“小力出奇跡”的開(kāi)源模式則給了全球南方國(guó)家一個(gè)公平分享AI大模型發(fā)展成果的機(jī)會(huì)。
如何判斷它是否在“胡說(shuō)八道”
隨著人工智能技術(shù)的不斷發(fā)展,大模型已經(jīng)變得越來(lái)越“聰明”,但即便是全球幾家頭部大模型廠商的頂尖大模型仍然無(wú)法完全破解機(jī)器幻覺(jué)的難題。人類(lèi)并不能真正了解屏幕那邊“侃侃而談”的大模型到底是在“說(shuō)真話”,還是在“一本正經(jīng)地胡說(shuō)八道”。
Grok-3使用的“思維鏈”其實(shí)就是希望還原大模型理解問(wèn)題、拆解問(wèn)題、解決問(wèn)題并提供結(jié)論的過(guò)程,以便讓得出的結(jié)論具有一定的可溯性。但《環(huán)球時(shí)報(bào)》記者在測(cè)試過(guò)程中發(fā)現(xiàn),即便使用了“思維鏈”,機(jī)器幻覺(jué)的問(wèn)題仍然無(wú)法完全避免,例如,給出似是而非的答案。不過(guò),Grok-3在使用“思維鏈”回答問(wèn)題給出結(jié)論之后,還會(huì)有一個(gè)名為“反思與建議”的步驟,說(shuō)明上述生成內(nèi)容可能存在的局限,并給出用戶(hù)進(jìn)一步核對(duì)以及給出更明確提問(wèn)要求的建議。
一位從事網(wǎng)絡(luò)技術(shù)工作的專(zhuān)業(yè)人士19日對(duì)《環(huán)球時(shí)報(bào)》記者表示,不同大模型也有自身的專(zhuān)長(zhǎng),有些公司打造的是通用模型,有些則是垂類(lèi)模型。從他的大模型使用體驗(yàn)來(lái)看,向Grok-3等大模型提出越具象的技術(shù)類(lèi)問(wèn)題越容易得到一個(gè)有效回答,然后還要進(jìn)行一定的追問(wèn)與調(diào)整,以便大模型可以更好地理解用戶(hù)的意圖,并給出更好的答案。
劉偉對(duì)《環(huán)球時(shí)報(bào)》記者表示,大模型容易出現(xiàn)機(jī)器幻覺(jué),主要有以下幾個(gè)原因:一是訓(xùn)練數(shù)據(jù)不足或偏見(jiàn)。如果訓(xùn)練數(shù)據(jù)不全面或有偏見(jiàn),AI可能基于錯(cuò)誤模式生成輸出。二是過(guò)擬合。模型過(guò)度學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲,導(dǎo)致在新數(shù)據(jù)上表現(xiàn)不佳,生成不相關(guān)內(nèi)容。三是模型復(fù)雜性。高復(fù)雜度的模型可能因參數(shù)過(guò)多而產(chǎn)生不可預(yù)測(cè)行為,增加幻覺(jué)風(fēng)險(xiǎn)。四是缺乏現(xiàn)實(shí)理解。AI模型本質(zhì)上是基于模式預(yù)測(cè)的語(yǔ)言生成器,而非真正理解世界,因此存在生成錯(cuò)誤信息的概率。例如,Grok-1在訓(xùn)練時(shí)未完全依賴(lài)真實(shí)世界數(shù)據(jù),采用了大量合成數(shù)據(jù),導(dǎo)致在理解真實(shí)世界時(shí)表現(xiàn)不佳,后來(lái)這一問(wèn)題在Grok-2上有所改善。
那么,要如何最大程度上降低機(jī)器幻覺(jué)出現(xiàn)的概率呢?在此前出版的《自然》雜志上,英國(guó)牛津大學(xué)科學(xué)家刊發(fā)論文稱(chēng),他們利用“語(yǔ)義熵”,即通過(guò)概率來(lái)判斷大語(yǔ)言模型是否出現(xiàn)了“幻覺(jué)”。語(yǔ)義熵是信息熵的一種,被用于量化物理系統(tǒng)中所包含的信息量。通過(guò)評(píng)估AI模型在特定提示詞下生成內(nèi)容的不確定性,來(lái)計(jì)算模型的困惑程度,從而為用戶(hù)或模型提供警示,提醒其采取必要的循證措施,確保更準(zhǔn)確的答案輸出。
據(jù)報(bào)道,美國(guó)卡內(nèi)基梅隆大學(xué)AI研究人員采用的方法是在大語(yǔ)言模型回答問(wèn)題時(shí),繪制其內(nèi)部計(jì)算節(jié)點(diǎn)的激活模式。他形象地稱(chēng)之為“給AI做腦部掃描”。利用不同的計(jì)算節(jié)點(diǎn)活動(dòng)模式,可以告訴我們AI模型是在“說(shuō)真話”,還是在“胡說(shuō)八道”。
馬斯克在發(fā)布會(huì)上稱(chēng),Grok-3具備強(qiáng)大的自我糾錯(cuò)功能,能夠識(shí)別并減少錯(cuò)誤數(shù)據(jù),并通過(guò)反復(fù)檢查數(shù)據(jù)實(shí)現(xiàn)邏輯一致性。這種機(jī)制減少了傳統(tǒng)AI模型中的“幻覺(jué)”問(wèn)題,使其在推理任務(wù)中表現(xiàn)更穩(wěn)定。清華大學(xué)新聞學(xué)院、人工智能學(xué)院教授沈陽(yáng)19日對(duì)《環(huán)球時(shí)報(bào)》記者表示,喂給大模型進(jìn)行訓(xùn)練的原始語(yǔ)料里面如果有一些錯(cuò)誤語(yǔ)料,通過(guò)強(qiáng)化學(xué)習(xí),大模型是具有一定自我糾錯(cuò)能力的。不過(guò),想要更大程度上降低機(jī)器幻覺(jué),需要從多個(gè)層面來(lái)進(jìn)行,包括改進(jìn)訓(xùn)練數(shù)據(jù)、增強(qiáng)語(yǔ)料真實(shí)性與廣泛性、優(yōu)化模型結(jié)構(gòu)算法、鼓勵(lì)用戶(hù)糾錯(cuò)反饋、提醒用戶(hù)要對(duì)生成內(nèi)容進(jìn)行核對(duì)與交叉驗(yàn)證等。
劉偉表示,大模型雖然在許多領(lǐng)域表現(xiàn)出強(qiáng)大的能力,但其局限性和潛在問(wèn)題不容忽視。為了避免其對(duì)人類(lèi)重大決策產(chǎn)生干擾,需要在使用過(guò)程中,結(jié)合人類(lèi)的經(jīng)驗(yàn)和判斷進(jìn)行監(jiān)督與修正,充分發(fā)揮人、機(jī)器、環(huán)境的系統(tǒng)校驗(yàn)修正作用,最大程度降低機(jī)器幻覺(jué)的發(fā)生,讓大模型更好地為人類(lèi)所用。
本文為科普中國(guó)·創(chuàng)作培育計(jì)劃扶持作品
作者:環(huán)球時(shí)報(bào)
出品:中國(guó)科協(xié)科普部
監(jiān)制:中國(guó)科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司