OpenAI首席科學(xué)家透露GPT4技術(shù)原理
本周可以說(shuō)是人工通用智能(AGI)周,GPT4橫空出世,文心的內(nèi)測(cè),還有微軟剛剛發(fā)布的GPT4 Office全家桶, 可以說(shuō)開(kāi)啟了AGI新紀(jì)元。這一代人是幸運(yùn)的,親自見(jiàn)證了徐徐拉開(kāi)大幕的新的信息工業(yè)革命。
GPT4發(fā)布的同時(shí)提供了萬(wàn)眾期待的技術(shù)報(bào)告,然而非常遺憾,官方以競(jìng)爭(zhēng)和安全為由,只讓大家知其然,不講所以然。不過(guò)有趣的是,從克雷格·史密斯(《紐約時(shí)報(bào)》的前記者)與OpenAI聯(lián)合創(chuàng)始人和首席科學(xué)家Ilya SutskeverIlya最近的一場(chǎng)公開(kāi)訪談?dòng)懻撝校覀兛梢愿Q見(jiàn)GPT3/4的技術(shù)端倪。
另一方面,基于筆者對(duì)GPT3/4其智能原理的推演 (詳見(jiàn):“ChatGPT是第一個(gè)真正意義的人工通用智能”),與Ilya SutskeverIlya的只言片語(yǔ)做一一對(duì)照分析,可以看到筆者的技術(shù)原理推演與Ilya SutskeverIlya的表述完全吻合。這也堅(jiān)定了筆者繼續(xù)整理系列介紹(“系列文章深度解析ChatGPT獲得智能的數(shù)學(xué)物理機(jī)理”)的信心。以下是對(duì)照:
Ilya :我們只需要使用一個(gè)更小但與之類(lèi)似的神經(jīng)網(wǎng)絡(luò),并使用數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練。然后,計(jì)算機(jī)內(nèi)部最好的神經(jīng)網(wǎng)將與我們的大腦中執(zhí)行這個(gè)任務(wù)的神經(jīng)網(wǎng)絡(luò)非常類(lèi)似。
Ilya :從OpenAI的最早時(shí)期開(kāi)始,我們就一直在探索一個(gè)想法:(機(jī)器學(xué)習(xí))只需要能夠預(yù)測(cè)下一個(gè)事物。
Ilya :如果有一個(gè)神經(jīng)網(wǎng)絡(luò)能夠預(yù)測(cè)下一個(gè)單詞,它就能解決無(wú)監(jiān)督學(xué)習(xí)問(wèn)題。因此,在GPT誕生之前,無(wú)監(jiān)督學(xué)習(xí)被認(rèn)為是機(jī)器學(xué)習(xí)的圣杯。
Ilya :當(dāng)Transformer的概念問(wèn)世后,那篇論文一出來(lái),真的是就在它出來(lái)的第二天,我們立即意識(shí)到Transformer解決了遞歸神經(jīng)網(wǎng)絡(luò)的局限性,解決了學(xué)習(xí)長(zhǎng)期依賴(lài)性的問(wèn)題。
QF:ChatGPT的訓(xùn)練方法是基于Transformer模型,通過(guò)學(xué)習(xí)文本數(shù)據(jù)的模式來(lái)生成文本。Transformer模型的核心是注意力機(jī)制,可以在生成文本時(shí),選擇性地關(guān)注輸入的一些部分,從而生成更加符合上下文的文本。
Ilya :我認(rèn)為學(xué)習(xí)統(tǒng)計(jì)規(guī)律比我們想象的更重要。
Ilya :預(yù)測(cè)也是一種統(tǒng)計(jì)現(xiàn)象。然而,為了進(jìn)行預(yù)測(cè),你需要了解產(chǎn)生數(shù)據(jù)的基本過(guò)程。你需要對(duì)產(chǎn)生數(shù)據(jù)的世界有越來(lái)越多的了解。
Ilya :我認(rèn)為隨著我們的生成式模型變得異常優(yōu)秀,它們將具有我所說(shuō)的對(duì)世界和其許多微妙之處的驚人程度的理解。它是通過(guò)文本的角度來(lái)看待世界的。它試圖通過(guò)人類(lèi)在互聯(lián)網(wǎng)上所表達(dá)的文本空間上的世界投影來(lái)更多地了解世界。
QF:GPT在自己構(gòu)造的高維語(yǔ)言空間中,通過(guò)預(yù)訓(xùn)練,記錄了人類(lèi)海量的語(yǔ)言實(shí)例,從中提取了無(wú)數(shù)的結(jié)構(gòu)與關(guān)聯(lián)信息。這個(gè)高維的語(yǔ)言空間,加上訓(xùn)練提取的結(jié)構(gòu)與關(guān)聯(lián)信息,可以理解構(gòu)成了GPT的腦。
QF: 本質(zhì)上看,GPT 其實(shí)是構(gòu)建了一個(gè)高維的語(yǔ)言體系,可以將自然語(yǔ)言,程序語(yǔ)言,視覺(jué)聽(tīng)覺(jué)語(yǔ)言,映射(或者叫編碼)到這個(gè)高維的語(yǔ)言空間中。高維語(yǔ)言空間是概率分布張成的空間。
Ilya :這些神經(jīng)網(wǎng)絡(luò)有產(chǎn)生幻覺(jué)的傾向。這是因?yàn)檎Z(yǔ)言模型非常適合學(xué)習(xí)有關(guān)世界的知識(shí),但不太適合產(chǎn)生好的輸出。
Ilya :可以說(shuō),在預(yù)訓(xùn)練過(guò)程中,我們想(讓它)學(xué)習(xí)的是關(guān)于這個(gè)世界的一切。但通過(guò)人類(lèi)反饋的強(qiáng)化學(xué)習(xí),我們關(guān)心的是它的輸出。
Ilya :多模態(tài)理解確實(shí)是可取的" ,“我認(rèn)為有些東西從圖像和圖表等方面更容易學(xué)習(xí),但我也認(rèn)為,你仍然可以只從文字中學(xué)習(xí),只是速度更慢。
QF: 人們發(fā)現(xiàn),增加多任務(wù)的任務(wù)數(shù)量,增加模型大小,提供思維鏈提示, 以及增加任務(wù)的多樣性,都可以提高GPT泛化能力,包括理解能力,以及推理能力。這些措施都是豐富GPT在某一問(wèn)題域的信息量,降低其信息熵, 盡力讓他見(jiàn)多識(shí)廣。
QF: 代碼使用計(jì)算機(jī)語(yǔ)言,是設(shè)計(jì)完善的特殊語(yǔ)種,結(jié)構(gòu)性強(qiáng),長(zhǎng)程關(guān)聯(lián),關(guān)系明確??梢杂梦⒄Z(yǔ)言結(jié)構(gòu)的概率分布為基底,張成語(yǔ)言空間,程序就是該語(yǔ)言結(jié)構(gòu)空間的點(diǎn)線面體。GPT可以用自己構(gòu)建的高維語(yǔ)言空間簡(jiǎn)單方便的學(xué)習(xí)代碼。
Ilya :每個(gè)神經(jīng)網(wǎng)絡(luò)通過(guò)“Embedding”表示法,即高維向量,來(lái)代表單詞、句子和概念。
Ilya :我們可以看一下這些高維向量,看看什么與什么相似,以及網(wǎng)絡(luò)是如何看待這個(gè)概念或那個(gè)概念的?因此,只需要查看顏色的Embedding向量,機(jī)器就會(huì)知道紫色比紅色更接近藍(lán)色,以及紅色比紫色更接近橙色。它只是通過(guò)文本就能知道所有這些東西。
Ilya :其中一個(gè)主要挑戰(zhàn)是預(yù)測(cè)具有不確定性的高維向量。那就是目前的自回歸Transformer已經(jīng)具備了這種特性。
Ilya :一個(gè)是對(duì)于給定一本書(shū)中任意的一頁(yè),預(yù)測(cè)其下一頁(yè)的內(nèi)容。下一頁(yè)有非常多的可能性。這是一個(gè)非常復(fù)雜的高維空間,而它們可以很好地處理它。同樣的情況也適用于圖像。這些自回歸Tranformer在圖像上也運(yùn)作得非常完美。
QF:借助Embedding ,GPT 將人類(lèi)的語(yǔ)言 “編碼”成自己的語(yǔ)言,然后通過(guò)注意力Attention從中提取各種豐富的知識(shí)和結(jié)構(gòu),加權(quán)積累與關(guān)聯(lián)生成自己的語(yǔ)言,然后“編碼”回人類(lèi)的語(yǔ)言。QF:本質(zhì)上看,GPT 其實(shí)是構(gòu)建了一個(gè)高維的語(yǔ)言體系,可以將自然語(yǔ)言,程序語(yǔ)言,視覺(jué)聽(tīng)覺(jué)語(yǔ)言,映射(或者叫編碼)到這個(gè)高維的語(yǔ)言空間中。高維語(yǔ)言空間是概率分布張成的空間。
Ilya :我認(rèn)為那篇論文(Yann LeCun)中對(duì)當(dāng)前方法無(wú)法處理高維分布的評(píng)論過(guò)于絕對(duì)了——我認(rèn)為它們絕對(duì)可以。
Ilya :我認(rèn)為我們的預(yù)訓(xùn)練模型已經(jīng)知道了它們需要了解的關(guān)于基礎(chǔ)現(xiàn)實(shí)的一切。它們已經(jīng)具備了有關(guān)語(yǔ)言的知識(shí)以及有關(guān)產(chǎn)生這種語(yǔ)言的世界進(jìn)程的大量知識(shí)。
Ilya :大型生成模型對(duì)其數(shù)據(jù)——在這種情況下是大型語(yǔ)言模型——所學(xué)習(xí)的東西是對(duì)產(chǎn)生這些數(shù)據(jù)的現(xiàn)實(shí)世界過(guò)程的壓縮表示。
QF:從GPT目前的表現(xiàn)看,他應(yīng)該也已經(jīng)從這些人類(lèi)語(yǔ)言蘊(yùn)含的知識(shí)中,學(xué)習(xí)到了歸納、演繹、對(duì)比、類(lèi)比等基礎(chǔ)能力,而這些都是本質(zhì)的原子思維能力,組合成為推理能力。諸如貝葉斯推理,最優(yōu)輸運(yùn),估計(jì)都可能已經(jīng)被提取出來(lái),成為GPT的思維結(jié)構(gòu)的一部分。
Ilya:有這些人類(lèi)教師在向模型教授它們的理想行為。而他們使用人工智能系統(tǒng)的方式不斷增加,因此他們自己的效率也在不斷提高。這和教育過(guò)程沒(méi)什么兩樣,那就是讓教育對(duì)象知道如何在這個(gè)世界上表現(xiàn)得好。
QF:研究表明,增加訓(xùn)練數(shù)據(jù)量,模型參數(shù)量,訓(xùn)練時(shí)間都會(huì)降低測(cè)試集上的信息熵. OpenAI 采用的策略是同時(shí)增加訓(xùn)練數(shù)據(jù)量和模型參數(shù), 讀得多,記得多。優(yōu)先增加模型參數(shù),然后才是訓(xùn)練數(shù)據(jù)量,記憶要好,再多學(xué),再勤學(xué), 與人類(lèi)學(xué)習(xí)形式相通。
Ilya:展現(xiàn)出超越行業(yè)權(quán)威的認(rèn)知高度,這應(yīng)該是GPT智能突破的關(guān)鍵因素之一??上н@個(gè)訪談時(shí)間不長(zhǎng),談?wù)摰膯?wèn)題不夠深入。Ilya沒(méi)有涉及到Emergent Ability涌現(xiàn)能力的機(jī)理。這個(gè)卻是ChatGPT/GPT4的魅力所在。也正是這一點(diǎn),讓GPT跨過(guò)了智障到智能的門(mén)檻,完成量變到質(zhì)變的重大突破。這是筆者的推演:
QF:GPT 構(gòu)建了海量自然語(yǔ)言和代碼的概率分布空間,被注入足夠的信息量(等于注入大量負(fù)的信息熵),形成各種復(fù)雜關(guān)聯(lián)的模式,涵蓋自然語(yǔ)言和代碼中各種知識(shí)與結(jié)構(gòu)。這些知識(shí)和結(jié)構(gòu),體現(xiàn)為概率分布的距離與關(guān)系,從而為對(duì)比、類(lèi)比、歸納、演繹等推理步驟提供支撐,也就是“涌現(xiàn)出”這些推理能力。
這個(gè)推演尚未獲得OpenAI 內(nèi)部的反饋,但從OpenAI GPT4 技術(shù)報(bào)告引用的文獻(xiàn)中,可以看到相當(dāng)大的關(guān)聯(lián)和指向。煉丹有成功的偶然性,也有必然性,對(duì)原理的認(rèn)知至關(guān)重要。認(rèn)識(shí)到原理就理解其中的必然性,可以明確指導(dǎo)煉丹努力的方向。GPT4代表著這個(gè)時(shí)代最先進(jìn)的生產(chǎn)力,OpenAI已經(jīng)掌握。其他公司必須急起直追,生產(chǎn)力落后意味著什么,大家都懂。
大語(yǔ)言模型構(gòu)建的壓縮版世界的高維的概率空間,像極了量子比特的“那個(gè)測(cè)不準(zhǔn)的、疊加的由本征態(tài)與概率支撐起來(lái)的世界”。大膽預(yù)言一下,未來(lái)20年,GPT與量子計(jì)算的融合,會(huì)催生更強(qiáng)大、更快速、更智慧的物種。筆者將繼續(xù)整理系列介紹(“系列文章深度解析ChatGPT獲得智能的數(shù)學(xué)物理機(jī)理”),同時(shí)也呼吁OpenAI 更開(kāi)放,至少公開(kāi)相應(yīng)的技術(shù)論文,超越民族與國(guó)界,助推這一劃時(shí)代的人類(lèi)科技進(jìn)步來(lái)的更猛烈些。