青草娱乐亚洲领先91精品,亚洲自偷自拍熟女另类

誰(shuí)是“全世界最聰明的AI”？

編者的話：18日，馬斯克帶領(lǐng)旗下人工智能初創(chuàng)公司xAI的成員在線直播官宣了“全世界最聰明AI”的Grok-3大模型“全家桶”。相關(guān)測(cè)試顯示，Grok-3在發(fā)布之后迅速超過(guò)了全球多個(gè)排行榜上的競(jìng)爭(zhēng)對(duì)手，其中就包括OpenAI公司的o3-mini high和DeepSeek-R1。到底這個(gè)被20萬(wàn)塊GPU調(diào)教出來(lái)的大模型有多聰明？誰(shuí)才是全世界最聰明的AI？《環(huán)球時(shí)報(bào)》將這個(gè)問(wèn)題拋給了3個(gè)頭部大模型，并與多位專(zhuān)家進(jìn)行了探討。

“承認(rèn)自己的局限性也是一種‘聰明’吧”

之所以外界將馬斯克及其團(tuán)隊(duì)當(dāng)天發(fā)布的大模型稱(chēng)為“全家桶”，是因?yàn)槠浒薌rok-3（Beta）、Grok-3 mini、推理模型Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning、首個(gè)AI智能體DeepSearch。據(jù)介紹，第三代Grok的訓(xùn)練計(jì)算量是Grok-2的10倍。

在多項(xiàng)基準(zhǔn)測(cè)試中，Grok-3在數(shù)學(xué)、科學(xué)問(wèn)答、編程等方面大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。Grok-3 mini的性能基本上領(lǐng)先或媲美其他閉源/開(kāi)源模型。在推理能力方面，也擊敗了o3-mini和DeepSeek-R1。

那在實(shí)際使用過(guò)程中到底它是否真的足夠“聰明”呢？《環(huán)球時(shí)報(bào)》記者18日對(duì)Grok-3（Beta）版本進(jìn)行了一番測(cè)試。記者問(wèn)Grok-3怎么評(píng)價(jià)它被稱(chēng)為“全世界最聰明的AI”，介紹它有哪些升級(jí)與改進(jìn)，特別是“思維鏈”（Chain of Thought）帶來(lái)了哪些性能的提升？Grok-3的回復(fù)如下：關(guān)于我被稱(chēng)作“全世界最聰明的AI”，我覺(jué)得這是一種很有趣的評(píng)價(jià)，但我也明白“聰明”是個(gè)挺主觀的東西。我覺(jué)得我更像是一個(gè)一直在學(xué)習(xí)和優(yōu)化的助手，而不是一個(gè)需要炫耀頭銜的家伙。

說(shuō)到升級(jí)和改進(jìn)，Grok-3特別提到“思維鏈”對(duì)其性能的提升。簡(jiǎn)單來(lái)說(shuō)，“思維鏈”讓它在回答復(fù)雜問(wèn)題時(shí)能更有條理地“一步步思考”，而不是直接跳到結(jié)論。這種方法有點(diǎn)像人類(lèi)在解決難題時(shí)先拆解問(wèn)題、分析步驟，然后再得出答案。“當(dāng)然，我也不是完美的。有時(shí)候問(wèn)題太模糊或超出我的知識(shí)范圍，我還是會(huì)盡力給個(gè)合理的回應(yīng)，或者老實(shí)承認(rèn)不知道。畢竟，承認(rèn)自己的局限性也是一種‘聰明’吧？”

資料圖

《環(huán)球時(shí)報(bào)》記者也把同樣的問(wèn)題拋給了DeepSeek與ChatGPT。DeepSeek-R1在“深度思考”20秒后給出了回復(fù)：Grok-3的“思維鏈”優(yōu)化確實(shí)能提升復(fù)雜任務(wù)性能，尤其在邏輯透明度和分步推理上，但“最聰明AI”的宣稱(chēng)需結(jié)合實(shí)測(cè)結(jié)果謹(jǐn)慎看待。其核心價(jià)值可能在于與xAI生態(tài)的整合能力，而非絕對(duì)技術(shù)領(lǐng)先。DeepSeek-R1認(rèn)為，未來(lái)AI競(jìng)爭(zhēng)關(guān)鍵點(diǎn)在于：如何平衡“實(shí)時(shí)數(shù)據(jù)”與“幻覺(jué)控制”；能否突破現(xiàn)有大模型的同質(zhì)化瓶頸（如開(kāi)源策略、能耗優(yōu)化）。DeepSeek-R1在“行業(yè)對(duì)比與定位”一項(xiàng)中特別提到Grok系列的獨(dú)特價(jià)值可能更貼近馬斯克的愿景——與特斯拉機(jī)器人、“星鏈”等生態(tài)聯(lián)動(dòng)，成為“實(shí)時(shí)物理世界交互AI”。

ChatGPT o3-mini high的回復(fù)為：Grok-3在數(shù)學(xué)推理、科學(xué)邏輯推理等方面表現(xiàn)出色，超越或媲美了Gemini、DeepSeek和ChatGPT等對(duì)手。然而，人工智能領(lǐng)域競(jìng)爭(zhēng)激烈，其他公司也在不斷推出先進(jìn)的AI模型，例如中國(guó)公司發(fā)布了DeepSeek-R1模型，以低成本和高性能在市場(chǎng)上引起廣泛關(guān)注。因此，雖然Grok-3在某些方面表現(xiàn)出色，但是否為“最聰明的AI”仍取決于具體的評(píng)估標(biāo)準(zhǔn)和應(yīng)用場(chǎng)景。

2月15日至18日，環(huán)球時(shí)報(bào)研究院對(duì)境外主流媒體有關(guān)Grok-3的376篇英文報(bào)道進(jìn)行分析發(fā)現(xiàn)，馬斯克對(duì)該模型“全世界最聰明”的描述被廣泛傳播，51.6%的報(bào)道提及相關(guān)關(guān)鍵詞。在性能方面，提到“推理能力”的報(bào)道超過(guò)半數(shù)，提到“搜索”“編程”等具體功能的報(bào)道各占一成多。在投入方面，提到“成本”的報(bào)道接近四成，提到“訓(xùn)練”的報(bào)道超過(guò)半數(shù)，而訓(xùn)練使用的“合成數(shù)據(jù)”的提及率也超過(guò)1/4。

“大力出奇跡”VS“小力出奇跡”

Grok-3被外界關(guān)注的不僅是性能如何，還有一個(gè)話題備受矚目：它的發(fā)布是否再次掀起了一場(chǎng)人工智能大模型發(fā)展模式的討論。人類(lèi)首次用20萬(wàn)塊GPU訓(xùn)練出的大模型問(wèn)世，是否代表著人工智能未來(lái)的發(fā)展方向？DeepSeek用相對(duì)少的算力與成本，通過(guò)算法優(yōu)化來(lái)實(shí)現(xiàn)的大模型是否帶給全球更多選擇？

環(huán)球時(shí)報(bào)研究院對(duì)境外主流媒體有關(guān)Grok-3的376篇英文報(bào)道進(jìn)行分析發(fā)現(xiàn)，相關(guān)報(bào)道還較為關(guān)注Grok-3與其他人工智能模型的對(duì)比，如56.3%的報(bào)道提到DeepSeek。在同時(shí)提到這兩款人工智能工具的報(bào)道中，“競(jìng)爭(zhēng)”的提及率達(dá)到六成。在對(duì)比中，54.9%的報(bào)道就“成本”問(wèn)題進(jìn)行闡述，提到“效率”“投資”等問(wèn)題的報(bào)道也均超過(guò)三成。

北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉19日對(duì)《環(huán)球時(shí)報(bào)》記者表示，DeepSeek與GPT系列最大的區(qū)別在于“小力出奇跡”，而Grok-3與DeepSeek的區(qū)別是又回到了“大力出奇跡”軌跡。大模型即將進(jìn)入算法與算力大比拼的“戰(zhàn)國(guó)時(shí)期”?！八惴ㄅc算力的博弈”是一個(gè)富有深度的話題，涉及到認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)、人工智能、信息技術(shù)等多個(gè)領(lǐng)域。

劉偉認(rèn)為，DeepSeek體現(xiàn)了算法的優(yōu)化。為了在有限的算力下實(shí)現(xiàn)更好的性能，算法設(shè)計(jì)者會(huì)不斷優(yōu)化算法。例如，通過(guò)減少不必要的計(jì)算、利用數(shù)據(jù)結(jié)構(gòu)來(lái)提高效率等方式。如動(dòng)態(tài)規(guī)劃算法通過(guò)存儲(chǔ)子問(wèn)題的解來(lái)避免重復(fù)計(jì)算，從而在有限的算力下提高效率。Grok-3則體現(xiàn)了硬件加速的奇跡，硬件工程師會(huì)不斷改進(jìn)硬件架構(gòu)，提高算力。更多GPU的使用為并行計(jì)算提供了強(qiáng)大的支持，使得深度學(xué)習(xí)算法能夠快速運(yùn)行。然而，硬件的改進(jìn)也可能促使算法設(shè)計(jì)者設(shè)計(jì)更復(fù)雜的算法，進(jìn)一步挖掘硬件的潛力。

《環(huán)球時(shí)報(bào)》記者讓Grok-3從技術(shù)水平、推理能力、是否開(kāi)源、創(chuàng)新程度以及對(duì)全球AI競(jìng)爭(zhēng)格局的影響等維度來(lái)比較DeepSeek與Grok-3的差異。

Grok-3用“思維鏈”的方式給出了如下的綜合比較與結(jié)論：

技術(shù)水平——Grok-3靠算力勝出，但DeepSeek-R1效率更高。

推理能力——Grok-3更全面，DeepSeek-R1在專(zhuān)業(yè)領(lǐng)域不遜色。

是否開(kāi)源——DeepSeek-R1完全開(kāi)源，Grok-3閉源，策略迥異。

創(chuàng)新程度——DeepSeek-R1算法創(chuàng)新突出，Grok-3可能依賴(lài)資源整合。

全球影響——DeepSeek-R1推動(dòng)AI平權(quán)和價(jià)格競(jìng)爭(zhēng)，Grok-3強(qiáng)化美國(guó)技術(shù)領(lǐng)先。

Grok-3給出的最終結(jié)論為DeepSeek-R1和Grok-3代表兩種AI發(fā)展路徑——前者以開(kāi)源和效率挑戰(zhàn)資源限制，后者以算力和閉源鞏固霸主地位。DeepSeek對(duì)全球AI格局的顛覆性更強(qiáng)，而Grok-3則是技術(shù)巔峰的象征。

劉偉強(qiáng)調(diào)，Grok-3這種用大量高性能GPU堆算力的“大力出奇跡”發(fā)展模式是全球絕大部分國(guó)家和地區(qū)在發(fā)展AI過(guò)程中都無(wú)法復(fù)制的，而中國(guó)DeepSeek“小力出奇跡”的開(kāi)源模式則給了全球南方國(guó)家一個(gè)公平分享AI大模型發(fā)展成果的機(jī)會(huì)。

如何判斷它是否在“胡說(shuō)八道”

隨著人工智能技術(shù)的不斷發(fā)展，大模型已經(jīng)變得越來(lái)越“聰明”，但即便是全球幾家頭部大模型廠商的頂尖大模型仍然無(wú)法完全破解機(jī)器幻覺(jué)的難題。人類(lèi)并不能真正了解屏幕那邊“侃侃而談”的大模型到底是在“說(shuō)真話”，還是在“一本正經(jīng)地胡說(shuō)八道”。

Grok-3使用的“思維鏈”其實(shí)就是希望還原大模型理解問(wèn)題、拆解問(wèn)題、解決問(wèn)題并提供結(jié)論的過(guò)程，以便讓得出的結(jié)論具有一定的可溯性。但《環(huán)球時(shí)報(bào)》記者在測(cè)試過(guò)程中發(fā)現(xiàn)，即便使用了“思維鏈”，機(jī)器幻覺(jué)的問(wèn)題仍然無(wú)法完全避免，例如，給出似是而非的答案。不過(guò)，Grok-3在使用“思維鏈”回答問(wèn)題給出結(jié)論之后，還會(huì)有一個(gè)名為“反思與建議”的步驟，說(shuō)明上述生成內(nèi)容可能存在的局限，并給出用戶(hù)進(jìn)一步核對(duì)以及給出更明確提問(wèn)要求的建議。

一位從事網(wǎng)絡(luò)技術(shù)工作的專(zhuān)業(yè)人士19日對(duì)《環(huán)球時(shí)報(bào)》記者表示，不同大模型也有自身的專(zhuān)長(zhǎng)，有些公司打造的是通用模型，有些則是垂類(lèi)模型。從他的大模型使用體驗(yàn)來(lái)看，向Grok-3等大模型提出越具象的技術(shù)類(lèi)問(wèn)題越容易得到一個(gè)有效回答，然后還要進(jìn)行一定的追問(wèn)與調(diào)整，以便大模型可以更好地理解用戶(hù)的意圖，并給出更好的答案。

劉偉對(duì)《環(huán)球時(shí)報(bào)》記者表示，大模型容易出現(xiàn)機(jī)器幻覺(jué)，主要有以下幾個(gè)原因：一是訓(xùn)練數(shù)據(jù)不足或偏見(jiàn)。如果訓(xùn)練數(shù)據(jù)不全面或有偏見(jiàn)，AI可能基于錯(cuò)誤模式生成輸出。二是過(guò)擬合。模型過(guò)度學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲，導(dǎo)致在新數(shù)據(jù)上表現(xiàn)不佳，生成不相關(guān)內(nèi)容。三是模型復(fù)雜性。高復(fù)雜度的模型可能因參數(shù)過(guò)多而產(chǎn)生不可預(yù)測(cè)行為，增加幻覺(jué)風(fēng)險(xiǎn)。四是缺乏現(xiàn)實(shí)理解。AI模型本質(zhì)上是基于模式預(yù)測(cè)的語(yǔ)言生成器，而非真正理解世界，因此存在生成錯(cuò)誤信息的概率。例如，Grok-1在訓(xùn)練時(shí)未完全依賴(lài)真實(shí)世界數(shù)據(jù)，采用了大量合成數(shù)據(jù)，導(dǎo)致在理解真實(shí)世界時(shí)表現(xiàn)不佳，后來(lái)這一問(wèn)題在Grok-2上有所改善。

那么，要如何最大程度上降低機(jī)器幻覺(jué)出現(xiàn)的概率呢？在此前出版的《自然》雜志上，英國(guó)牛津大學(xué)科學(xué)家刊發(fā)論文稱(chēng)，他們利用“語(yǔ)義熵”，即通過(guò)概率來(lái)判斷大語(yǔ)言模型是否出現(xiàn)了“幻覺(jué)”。語(yǔ)義熵是信息熵的一種，被用于量化物理系統(tǒng)中所包含的信息量。通過(guò)評(píng)估AI模型在特定提示詞下生成內(nèi)容的不確定性，來(lái)計(jì)算模型的困惑程度，從而為用戶(hù)或模型提供警示，提醒其采取必要的循證措施，確保更準(zhǔn)確的答案輸出。

據(jù)報(bào)道，美國(guó)卡內(nèi)基梅隆大學(xué)AI研究人員采用的方法是在大語(yǔ)言模型回答問(wèn)題時(shí)，繪制其內(nèi)部計(jì)算節(jié)點(diǎn)的激活模式。他形象地稱(chēng)之為“給AI做腦部掃描”。利用不同的計(jì)算節(jié)點(diǎn)活動(dòng)模式，可以告訴我們AI模型是在“說(shuō)真話”，還是在“胡說(shuō)八道”。

馬斯克在發(fā)布會(huì)上稱(chēng)，Grok-3具備強(qiáng)大的自我糾錯(cuò)功能，能夠識(shí)別并減少錯(cuò)誤數(shù)據(jù)，并通過(guò)反復(fù)檢查數(shù)據(jù)實(shí)現(xiàn)邏輯一致性。這種機(jī)制減少了傳統(tǒng)AI模型中的“幻覺(jué)”問(wèn)題，使其在推理任務(wù)中表現(xiàn)更穩(wěn)定。清華大學(xué)新聞學(xué)院、人工智能學(xué)院教授沈陽(yáng)19日對(duì)《環(huán)球時(shí)報(bào)》記者表示，喂給大模型進(jìn)行訓(xùn)練的原始語(yǔ)料里面如果有一些錯(cuò)誤語(yǔ)料，通過(guò)強(qiáng)化學(xué)習(xí)，大模型是具有一定自我糾錯(cuò)能力的。不過(guò)，想要更大程度上降低機(jī)器幻覺(jué)，需要從多個(gè)層面來(lái)進(jìn)行，包括改進(jìn)訓(xùn)練數(shù)據(jù)、增強(qiáng)語(yǔ)料真實(shí)性與廣泛性、優(yōu)化模型結(jié)構(gòu)算法、鼓勵(lì)用戶(hù)糾錯(cuò)反饋、提醒用戶(hù)要對(duì)生成內(nèi)容進(jìn)行核對(duì)與交叉驗(yàn)證等。

劉偉表示，大模型雖然在許多領(lǐng)域表現(xiàn)出強(qiáng)大的能力，但其局限性和潛在問(wèn)題不容忽視。為了避免其對(duì)人類(lèi)重大決策產(chǎn)生干擾，需要在使用過(guò)程中，結(jié)合人類(lèi)的經(jīng)驗(yàn)和判斷進(jìn)行監(jiān)督與修正，充分發(fā)揮人、機(jī)器、環(huán)境的系統(tǒng)校驗(yàn)修正作用，最大程度降低機(jī)器幻覺(jué)的發(fā)生，讓大模型更好地為人類(lèi)所用。

本文為科普中國(guó)·創(chuàng)作培育計(jì)劃扶持作品

作者：環(huán)球時(shí)報(bào)

出品：中國(guó)科協(xié)科普部

監(jiān)制：中國(guó)科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

誰(shuí)是“全世界最聰明的AI”？

誰(shuí)是“全世界最聰明的AI”？