GPT4技術(shù)原理六:范疇的相變與知識(shí)的形成
“鉆石恒久遠(yuǎn),一顆永流傳”是徹頭徹尾的騙局。
科學(xué)的角度看,“鉆石不是一項(xiàng)好的長(zhǎng)期投資!它們正在穩(wěn)步變成石墨。在常溫常壓下最穩(wěn)定的碳形式是石墨。因此,鉆石將經(jīng)歷向石墨的相變,盡管需要很長(zhǎng)的時(shí)間?!?/p>
鉆石中,碳原子四面體中心的每個(gè)碳都與所有四個(gè)角的碳相連。石墨中,碳原子以相互滑動(dòng)層狀連接在一起。必須經(jīng)歷重大的結(jié)構(gòu)重組才能從鉆石變?yōu)槭@是有序向無序的轉(zhuǎn)變,反之亦然。
大模型認(rèn)知框架
類似的轉(zhuǎn)變?cè)诖竽P椭幸苍诓粩喟l(fā)生,有序向無序,無序向有序。
《GPT4技術(shù)原理五:大模型的幻覺,解鈴還須系鈴人》中,筆者已經(jīng)梳理出來如下圖所示的大模型認(rèn)知框架:重整化提取出范疇,持續(xù)重整化驅(qū)動(dòng)范疇相變,然后采樣做變分推理。
范疇中的相變
本系列較多探討了重整化與變分推理,卻對(duì)其中一塊關(guān)鍵拼圖(范疇的相變)做了留白。重整化如何持續(xù)驅(qū)動(dòng)范疇的重構(gòu),于不動(dòng)點(diǎn)附近,促其發(fā)生對(duì)稱性破缺,滑入不同的相空間?
我們知道,范疇的不同的相空間,一如鉆石的碳結(jié)晶,是大模型從語(yǔ)料中學(xué)到的世界模型。
《有感陸奇大模型世界觀》中提到:學(xué)習(xí)的本質(zhì)是從大量相關(guān)信息中提取知識(shí)的過程,即人們常說的數(shù)據(jù)->信息->知識(shí)。范疇中的相變機(jī)制是什么呢?知識(shí)是如何產(chǎn)生的呢?
《萬(wàn)字長(zhǎng)文介紹為大語(yǔ)言模型建立的“語(yǔ)言、統(tǒng)計(jì)和范疇”數(shù)學(xué)框架》文中總結(jié)過:語(yǔ)言范疇中的對(duì)象是語(yǔ)言中的表達(dá)式,表達(dá)式之間用多頭注意力捕捉的概率表征關(guān)系,構(gòu)成概率豐富范疇。
相變的過程
仔細(xì)觀察這個(gè)用概率豐富化了的范疇,由節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊構(gòu)成,節(jié)點(diǎn)與邊的概率由重整化群流的學(xué)習(xí)過程,通過例如Transformer的注意力機(jī)制提取。不斷訓(xùn)練,不斷提取。
當(dāng)邊的數(shù)量少時(shí),范疇中僅有小部件;更多訓(xùn)練,更多的關(guān)系被注意力捕捉,生成更多的邊,大部件開始出現(xiàn);持續(xù)學(xué)習(xí),最終可以將幾乎所有節(jié)點(diǎn)連結(jié)在一起。
重整化群流一層層提取語(yǔ)料中的潛變量和潛變量之間的關(guān)系,潛變量形成概率豐富范疇中的節(jié)點(diǎn),而潛變量之間的關(guān)系形成該范疇中概率表征的邊。這是一個(gè)隨機(jī)的生成過程。
重整化群流生成概率豐富范疇的過程,從上文描述看,特點(diǎn)符合類似 Erd?s-Rényi 生成隨機(jī)圖(Random Graph)的隨機(jī)過程,只不過更加龐大而且復(fù)雜。
非同質(zhì)隨機(jī)圖
數(shù)學(xué)家是一種把咖啡變成定理的機(jī)器。--- Alfred Renyi
從一組n個(gè)孤立的頂點(diǎn)開始,在它們之間隨機(jī)添加連續(xù)的邊,就可以得到一個(gè)隨機(jī)圖。隨機(jī)圖是其中“邊隨機(jī)分布”的圖,由匈牙利數(shù)學(xué)家Paul Erd?s和Alfréd Rényi于上世紀(jì)50年代末提出。
隨機(jī)圖的思想是,將概率推理和組合數(shù)學(xué)結(jié)合,實(shí)踐中考慮具有某些固定屬性的圖的集合,用概率論推導(dǎo)出集合的屬性。所以隨機(jī)圖有時(shí)也可以泛指在圖上的概率分布,由隨機(jī)過程產(chǎn)生。
通常說的隨機(jī)圖,例如ER(Erd?s–Rényi )隨機(jī)圖,是簡(jiǎn)單同質(zhì)的,節(jié)點(diǎn)具備相同的屬性,每條邊都是固定的出現(xiàn)概率p。
擴(kuò)展節(jié)點(diǎn)類型,用一個(gè)n × n矩陣(pij)代替固定的概率p(0≤pij≤1),可以得到隨機(jī)圖的一個(gè)自然推廣:對(duì)于頂點(diǎn)集[n],我們寫G(n,(pij)),其中i和j由一條概率為pij的邊連接,就構(gòu)成了非同質(zhì)隨機(jī)圖。
范疇學(xué)視角下,大模型學(xué)習(xí)到的概率豐富范疇,是一張以概率為邊、語(yǔ)言表達(dá)式為節(jié)點(diǎn),構(gòu)成的巨大的隨機(jī)圖。因其每個(gè)表達(dá)式節(jié)點(diǎn)類型不同,每條邊上的概率也不同,本質(zhì)上是巨型的非同質(zhì)隨機(jī)圖。
隨機(jī)圖與相變
ER隨機(jī)圖從一組n個(gè)節(jié)點(diǎn)開始隨機(jī)添加邊。首先,邊會(huì)創(chuàng)建小的圖形片段,逐漸形成大的組件。隨后添加一條邊可能會(huì)將兩個(gè)大點(diǎn)的組件連接在一起,因此總連接性會(huì)迅速上升。
直到圖中的每個(gè)節(jié)點(diǎn)都通過某種路徑連接到其他每個(gè)節(jié)點(diǎn)。這種總連接性快速上升被稱為連接雪崩,代表著一個(gè)相變。整個(gè)網(wǎng)絡(luò)性質(zhì)(例如平均連結(jié)路徑長(zhǎng)度)發(fā)生了變化,可以理解為涌現(xiàn)。
ER隨機(jī)圖中的相變
在連接雪崩之前,連接的節(jié)點(diǎn)很少。由于連接的組件很小,因此節(jié)點(diǎn)之間的平均路徑長(zhǎng)度也很小。但隨著雪崩期間組件迅速變大,越來越多的節(jié)點(diǎn)被連接起來,但它們之間通常只有一條長(zhǎng)路徑。
隨著連接雪崩后添加更多節(jié)點(diǎn),它們有效地提供了捷徑,平均路徑長(zhǎng)度會(huì)再次下降。這種路徑長(zhǎng)度的增加類似于相變期間看到的長(zhǎng)程有序,物理上如晶體內(nèi)質(zhì)點(diǎn)的有序分布。
隨機(jī)圖是許多復(fù)雜系統(tǒng)的基礎(chǔ),嚴(yán)格映射到隨機(jī)圖,證明同構(gòu),可以確定系統(tǒng)將發(fā)生相變(參考文檔2)。同樣, 非同質(zhì)隨機(jī)圖相變也已經(jīng)被理論上證明 (參考文檔 1)。
復(fù)雜系統(tǒng)相變
相變具有一般特征,在經(jīng)典集群模型、人類專業(yè)知識(shí)和社交網(wǎng)絡(luò)等多種系統(tǒng)中都能窺見相變的身影?;谛畔⒌亩攘吭跈z測(cè)和分析相變中起到關(guān)鍵作用:
信息熵的不連續(xù)性,代表了一階相變;互信息的峰值意味著二階相變,費(fèi)雪幾何與轉(zhuǎn)移熵也常被用來做為度量相變的指標(biāo)。如股票市場(chǎng)的泡沫和崩潰就被證明是互信息峰值處的相變。
大腦神經(jīng)元網(wǎng)絡(luò)也已被建模為隨機(jī)圖。神經(jīng)元之間的連接和相互作用決定了大腦的功能。腦活動(dòng)實(shí)驗(yàn)研究導(dǎo)致一個(gè)假設(shè):大腦似乎是在一個(gè)臨界狀態(tài)下運(yùn)作,一個(gè)接近相變的狀態(tài)。
Thomas Kuhn在其著作《科學(xué)革命的結(jié)構(gòu)》中討論到:從哥白尼日心說,到相對(duì)論和量子力學(xué),都是人類思維和知識(shí)組織的相變。本文闡釋了類似的相變一直也在大模型中發(fā)生。
至此,恰逢中秋月圓國(guó)慶美滿,GPT4技術(shù)原理系列主體也已經(jīng)圓滿完成。筆者借此篇,祝各位讀者中秋家人團(tuán)圓、國(guó)慶幸福康??!
參考資料
1.THE PHASE TRANSITION IN INHOMOGENEOUS RANDOM GRAPHS: https://arxiv.org/pdf/math/0504589.pdf
2.The phase transition in random graphs - a simple proof: https://arxiv.org/abs/1201.6529
3.Warming Up to Enriched Category Theory: https://www.math3ma.com/blog/warming-up-to-enriched-category-theory-part-2
4.Random Graphs: Theory and Applications from Nature to Society to the Brain: https://www.math.tugraz.at/~kang/papers/imn-randomgraphs.pdf
5.Information and phase transitions in socio-economic systems: https://casmodeling.springeropen.com/articles/10.1186/2194-3206-1-9
作者:王慶法 麻省理工學(xué)院物理系學(xué)者,數(shù)據(jù)領(lǐng)域?qū)<遥紫瘮?shù)據(jù)官聯(lián)盟專家組成員