版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

OpenAI首席科學(xué)家透露GPT4技術(shù)原理

中啟行
企業(yè)致力于科技新聞媒體及科普教育傳播
收藏

OpenAI首席科學(xué)家透露GPT4技術(shù)原理

本周可以說是人工通用智能(AGI)周,GPT4橫空出世,文心的內(nèi)測,還有微軟剛剛發(fā)布的GPT4 Office全家桶, 可以說開啟了AGI新紀(jì)元。這一代人是幸運(yùn)的,親自見證了徐徐拉開大幕的新的信息工業(yè)革命。

GPT4發(fā)布的同時提供了萬眾期待的技術(shù)報告,然而非常遺憾,官方以競爭和安全為由,只讓大家知其然,不講所以然。不過有趣的是,從克雷格·史密斯(《紐約時報》的前記者)與OpenAI聯(lián)合創(chuàng)始人和首席科學(xué)家Ilya SutskeverIlya最近的一場公開訪談討論中,我們可以窺見GPT3/4的技術(shù)端倪。

另一方面,基于筆者對GPT3/4其智能原理的推演 (詳見:“ChatGPT是第一個真正意義的人工通用智能”),與Ilya SutskeverIlya的只言片語做一一對照分析,可以看到筆者的技術(shù)原理推演與Ilya SutskeverIlya的表述完全吻合。這也堅(jiān)定了筆者繼續(xù)整理系列介紹(“系列文章深度解析ChatGPT獲得智能的數(shù)學(xué)物理機(jī)理”)的信心。以下是對照:

Ilya :我們只需要使用一個更小但與之類似的神經(jīng)網(wǎng)絡(luò),并使用數(shù)據(jù)對其進(jìn)行訓(xùn)練。然后,計(jì)算機(jī)內(nèi)部最好的神經(jīng)網(wǎng)將與我們的大腦中執(zhí)行這個任務(wù)的神經(jīng)網(wǎng)絡(luò)非常類似。

Ilya :從OpenAI的最早時期開始,我們就一直在探索一個想法:(機(jī)器學(xué)習(xí))只需要能夠預(yù)測下一個事物。

Ilya :如果有一個神經(jīng)網(wǎng)絡(luò)能夠預(yù)測下一個單詞,它就能解決無監(jiān)督學(xué)習(xí)問題。因此,在GPT誕生之前,無監(jiān)督學(xué)習(xí)被認(rèn)為是機(jī)器學(xué)習(xí)的圣杯。

Ilya :當(dāng)Transformer的概念問世后,那篇論文一出來,真的是就在它出來的第二天,我們立即意識到Transformer解決了遞歸神經(jīng)網(wǎng)絡(luò)的局限性,解決了學(xué)習(xí)長期依賴性的問題。

QF:ChatGPT的訓(xùn)練方法是基于Transformer模型,通過學(xué)習(xí)文本數(shù)據(jù)的模式來生成文本。Transformer模型的核心是注意力機(jī)制,可以在生成文本時,選擇性地關(guān)注輸入的一些部分,從而生成更加符合上下文的文本。

Ilya :我認(rèn)為學(xué)習(xí)統(tǒng)計(jì)規(guī)律比我們想象的更重要。

Ilya :預(yù)測也是一種統(tǒng)計(jì)現(xiàn)象。然而,為了進(jìn)行預(yù)測,你需要了解產(chǎn)生數(shù)據(jù)的基本過程。你需要對產(chǎn)生數(shù)據(jù)的世界有越來越多的了解。

Ilya :我認(rèn)為隨著我們的生成式模型變得異常優(yōu)秀,它們將具有我所說的對世界和其許多微妙之處的驚人程度的理解。它是通過文本的角度來看待世界的。它試圖通過人類在互聯(lián)網(wǎng)上所表達(dá)的文本空間上的世界投影來更多地了解世界。

QF:GPT在自己構(gòu)造的高維語言空間中,通過預(yù)訓(xùn)練,記錄了人類海量的語言實(shí)例,從中提取了無數(shù)的結(jié)構(gòu)與關(guān)聯(lián)信息。這個高維的語言空間,加上訓(xùn)練提取的結(jié)構(gòu)與關(guān)聯(lián)信息,可以理解構(gòu)成了GPT的腦。

QF: 本質(zhì)上看,GPT 其實(shí)是構(gòu)建了一個高維的語言體系,可以將自然語言,程序語言,視覺聽覺語言,映射(或者叫編碼)到這個高維的語言空間中。高維語言空間是概率分布張成的空間。

Ilya :這些神經(jīng)網(wǎng)絡(luò)有產(chǎn)生幻覺的傾向。這是因?yàn)檎Z言模型非常適合學(xué)習(xí)有關(guān)世界的知識,但不太適合產(chǎn)生好的輸出。

Ilya :可以說,在預(yù)訓(xùn)練過程中,我們想(讓它)學(xué)習(xí)的是關(guān)于這個世界的一切。但通過人類反饋的強(qiáng)化學(xué)習(xí),我們關(guān)心的是它的輸出。

Ilya :多模態(tài)理解確實(shí)是可取的" ,“我認(rèn)為有些東西從圖像和圖表等方面更容易學(xué)習(xí),但我也認(rèn)為,你仍然可以只從文字中學(xué)習(xí),只是速度更慢。

QF: 人們發(fā)現(xiàn),增加多任務(wù)的任務(wù)數(shù)量,增加模型大小,提供思維鏈提示, 以及增加任務(wù)的多樣性,都可以提高GPT泛化能力,包括理解能力,以及推理能力。這些措施都是豐富GPT在某一問題域的信息量,降低其信息熵, 盡力讓他見多識廣。

QF: 代碼使用計(jì)算機(jī)語言,是設(shè)計(jì)完善的特殊語種,結(jié)構(gòu)性強(qiáng),長程關(guān)聯(lián),關(guān)系明確??梢杂梦⒄Z言結(jié)構(gòu)的概率分布為基底,張成語言空間,程序就是該語言結(jié)構(gòu)空間的點(diǎn)線面體。GPT可以用自己構(gòu)建的高維語言空間簡單方便的學(xué)習(xí)代碼。

Ilya :每個神經(jīng)網(wǎng)絡(luò)通過“Embedding”表示法,即高維向量,來代表單詞、句子和概念。

Ilya :我們可以看一下這些高維向量,看看什么與什么相似,以及網(wǎng)絡(luò)是如何看待這個概念或那個概念的?因此,只需要查看顏色的Embedding向量,機(jī)器就會知道紫色比紅色更接近藍(lán)色,以及紅色比紫色更接近橙色。它只是通過文本就能知道所有這些東西。

Ilya :其中一個主要挑戰(zhàn)是預(yù)測具有不確定性的高維向量。那就是目前的自回歸Transformer已經(jīng)具備了這種特性。

Ilya :一個是對于給定一本書中任意的一頁,預(yù)測其下一頁的內(nèi)容。下一頁有非常多的可能性。這是一個非常復(fù)雜的高維空間,而它們可以很好地處理它。同樣的情況也適用于圖像。這些自回歸Tranformer在圖像上也運(yùn)作得非常完美。

QF:借助Embedding ,GPT 將人類的語言 “編碼”成自己的語言,然后通過注意力Attention從中提取各種豐富的知識和結(jié)構(gòu),加權(quán)積累與關(guān)聯(lián)生成自己的語言,然后“編碼”回人類的語言。QF:本質(zhì)上看,GPT 其實(shí)是構(gòu)建了一個高維的語言體系,可以將自然語言,程序語言,視覺聽覺語言,映射(或者叫編碼)到這個高維的語言空間中。高維語言空間是概率分布張成的空間。

Ilya :我認(rèn)為那篇論文(Yann LeCun)中對當(dāng)前方法無法處理高維分布的評論過于絕對了——我認(rèn)為它們絕對可以。

Ilya :我認(rèn)為我們的預(yù)訓(xùn)練模型已經(jīng)知道了它們需要了解的關(guān)于基礎(chǔ)現(xiàn)實(shí)的一切。它們已經(jīng)具備了有關(guān)語言的知識以及有關(guān)產(chǎn)生這種語言的世界進(jìn)程的大量知識。

Ilya :大型生成模型對其數(shù)據(jù)——在這種情況下是大型語言模型——所學(xué)習(xí)的東西是對產(chǎn)生這些數(shù)據(jù)的現(xiàn)實(shí)世界過程的壓縮表示。

QF:從GPT目前的表現(xiàn)看,他應(yīng)該也已經(jīng)從這些人類語言蘊(yùn)含的知識中,學(xué)習(xí)到了歸納、演繹、對比、類比等基礎(chǔ)能力,而這些都是本質(zhì)的原子思維能力,組合成為推理能力。諸如貝葉斯推理,最優(yōu)輸運(yùn),估計(jì)都可能已經(jīng)被提取出來,成為GPT的思維結(jié)構(gòu)的一部分。

Ilya:有這些人類教師在向模型教授它們的理想行為。而他們使用人工智能系統(tǒng)的方式不斷增加,因此他們自己的效率也在不斷提高。這和教育過程沒什么兩樣,那就是讓教育對象知道如何在這個世界上表現(xiàn)得好。

QF:研究表明,增加訓(xùn)練數(shù)據(jù)量,模型參數(shù)量,訓(xùn)練時間都會降低測試集上的信息熵. OpenAI 采用的策略是同時增加訓(xùn)練數(shù)據(jù)量和模型參數(shù), 讀得多,記得多。優(yōu)先增加模型參數(shù),然后才是訓(xùn)練數(shù)據(jù)量,記憶要好,再多學(xué),再勤學(xué), 與人類學(xué)習(xí)形式相通。

Ilya:展現(xiàn)出超越行業(yè)權(quán)威的認(rèn)知高度,這應(yīng)該是GPT智能突破的關(guān)鍵因素之一。可惜這個訪談時間不長,談?wù)摰膯栴}不夠深入。Ilya沒有涉及到Emergent Ability涌現(xiàn)能力的機(jī)理。這個卻是ChatGPT/GPT4的魅力所在。也正是這一點(diǎn),讓GPT跨過了智障到智能的門檻,完成量變到質(zhì)變的重大突破。這是筆者的推演:

QF:GPT 構(gòu)建了海量自然語言和代碼的概率分布空間,被注入足夠的信息量(等于注入大量負(fù)的信息熵),形成各種復(fù)雜關(guān)聯(lián)的模式,涵蓋自然語言和代碼中各種知識與結(jié)構(gòu)。這些知識和結(jié)構(gòu),體現(xiàn)為概率分布的距離與關(guān)系,從而為對比、類比、歸納、演繹等推理步驟提供支撐,也就是“涌現(xiàn)出”這些推理能力。

這個推演尚未獲得OpenAI 內(nèi)部的反饋,但從OpenAI GPT4 技術(shù)報告引用的文獻(xiàn)中,可以看到相當(dāng)大的關(guān)聯(lián)和指向。煉丹有成功的偶然性,也有必然性,對原理的認(rèn)知至關(guān)重要。認(rèn)識到原理就理解其中的必然性,可以明確指導(dǎo)煉丹努力的方向。GPT4代表著這個時代最先進(jìn)的生產(chǎn)力,OpenAI已經(jīng)掌握。其他公司必須急起直追,生產(chǎn)力落后意味著什么,大家都懂。

大語言模型構(gòu)建的壓縮版世界的高維的概率空間,像極了量子比特的“那個測不準(zhǔn)的、疊加的由本征態(tài)與概率支撐起來的世界”。大膽預(yù)言一下,未來20年,GPT與量子計(jì)算的融合,會催生更強(qiáng)大、更快速、更智慧的物種。筆者將繼續(xù)整理系列介紹(“系列文章深度解析ChatGPT獲得智能的數(shù)學(xué)物理機(jī)理”),同時也呼吁OpenAI 更開放,至少公開相應(yīng)的技術(shù)論文,超越民族與國界,助推這一劃時代的人類科技進(jìn)步來的更猛烈些。

評論
????
貢士級
2023-10-23