版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

GPT4技術(shù)原理四:重整化群流作為最優(yōu)輸運(yùn)

企業(yè)致力于科技新聞媒體及科普教育傳播
收藏

GPT4技術(shù)原理四:重整化群流作為最優(yōu)輸運(yùn)

本文作為GPT4技術(shù)原理探索系列的第四篇,借助哈佛大學(xué)Jordan Cotler與 Semon Rezchikov的一篇題目為“重整化群流作為最優(yōu)輸運(yùn)”的文章( 下文中以RGF-OT指代,https://arxiv.org/abs/2202.11737),介紹一下重整化群與最優(yōu)輸運(yùn)的內(nèi)在聯(lián)系。

論文的作者Jordan Cotler來(lái)自哈佛大學(xué)研究員協(xié)會(huì)、哈佛大學(xué)黑洞計(jì)劃和哈佛大學(xué)自然基本法中心,研究興趣包括量子場(chǎng)論、統(tǒng)計(jì)力學(xué)和機(jī)器學(xué)習(xí)。另一位作者Semon Rezchikov則來(lái)自哈佛大學(xué)數(shù)學(xué)系。

兩位學(xué)者將文章概述為:“我們建立了精確重整化群流的Polchinski方程等價(jià)于場(chǎng)相對(duì)熵的最優(yōu)輸運(yùn)梯度流。這提供了一個(gè)令人信服的精確重整化群的信息論公式,用最優(yōu)輸運(yùn)的語(yǔ)言表達(dá)。一個(gè)顯著的結(jié)果是,相對(duì)熵的正則化實(shí)際上是一個(gè)RG單調(diào)。我們用幾個(gè)例子計(jì)算了這個(gè)單調(diào)。我們的結(jié)果更廣泛地適用于其他精確的重整化群流方程,包括廣泛使用的特化的Wegner-Morris流。此外,我們的RG最優(yōu)輸運(yùn)框架允許我們將RG流重新表述為變分問(wèn)題。這使得新的數(shù)值技術(shù)成為可能,并在神經(jīng)網(wǎng)絡(luò)方法和傳統(tǒng)場(chǎng)論的RG流之間建立了系統(tǒng)的聯(lián)系?!?/p>

為更好的解讀文章,我們簡(jiǎn)單回顧一下 “GPT4技術(shù)原理二:相變與涌現(xiàn)”中引入的重整化群:重整化群(RG : Renormalization Group) 是研究不同尺度下對(duì)稱性破缺與重建過(guò)程的核心數(shù)學(xué)手段。借助重整化群這一研究復(fù)雜物理系統(tǒng)行為的框架,人們可以在不同尺度上分析系統(tǒng),并理解隨著觀察尺度的變化,系統(tǒng)的特性如何變化。通過(guò)這種方式,RG提供了一種研究微觀細(xì)節(jié)如何產(chǎn)生較大尺度新涌現(xiàn)特性的方法。

在GPT4技術(shù)原理三:重整化群與生成式AI文中我們?cè)斒隽酥卣毫髟陬A(yù)訓(xùn)練與生成方面的機(jī)理:對(duì)一張圖像,重整化從細(xì)顆粒度到粗顆粒度,逐層提取潛變量Zn, 提取圖像中蘊(yùn)含的各層次的結(jié)構(gòu);而生成圖像的過(guò)程就是從粗粒度,對(duì)潛變量的高斯概率分布進(jìn)行采樣,重建下一個(gè)層次的結(jié)構(gòu)(類似你跟別人描述這個(gè)人濃眉大眼)。重整化的群變換Gn 在生成過(guò)程中用到 Gn的逆。GPT 和其他大語(yǔ)言模型的使用的Transformer其實(shí)就可以類比這些重整化的群變換G。

在”漂亮國(guó)的核潛艇與深度學(xué)習(xí)的內(nèi)卷“一文中,筆者總結(jié)過(guò):玻爾茲曼機(jī)踐行了重整化群的思想,事實(shí)上,在神經(jīng)網(wǎng)絡(luò)中引入隱含節(jié)點(diǎn)就是尺度重整化。每一次尺度變換后,自由能保持不變。F =-lnZ, 這里Z是配分函數(shù),是一個(gè)能量(不同能級(jí)上粒子數(shù))的概率分布,Z不變,即能量的概率分布不變。重整化群給出了損失函數(shù),也就是不同層的F自由能的差異,或者說(shuō)兩個(gè)能量概率分布的“距離”, 訓(xùn)練就是來(lái)最小化這個(gè)距離。

這里的距離就是有望實(shí)現(xiàn)統(tǒng)一距離度量的“Wasserstein距離”,是由最優(yōu)輸運(yùn)(OT: Optimal Transport)定義的距離:故事從18世紀(jì)末路易十六統(tǒng)治下的法國(guó)講起,蒙日是當(dāng)時(shí)最杰出的科學(xué)家,他在研究如何以最小的成本把農(nóng)場(chǎng)生產(chǎn)的牛奶分配給工廠的奶酪工匠們的高深問(wèn)題。這個(gè)看似簡(jiǎn)單的問(wèn)題就是著名的蒙日問(wèn)題,數(shù)學(xué)家們用了近200年才完全刻畫(huà)這個(gè)問(wèn)題。蘇聯(lián)數(shù)學(xué)和經(jīng)濟(jì)學(xué)家Kantorovich因?qū)Υ藛?wèn)題的研究和最優(yōu)資源匹配的貢獻(xiàn)獲得了諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。

簡(jiǎn)單理解,OT問(wèn)題可以抽象成:供應(yīng)分布 X [x1, x2, x3, x4, …, xn ] 到需求分布 Y [y1, y2, y3, y4, …, ym ] 的最小成本的運(yùn)輸問(wèn)題 ( cost_ij = xi -> yj ),也就是著名的最優(yōu)輸運(yùn)(Optimal Transport)問(wèn)題。從連續(xù)的視角看,該問(wèn)題就是將供應(yīng)概率分布p(x) 轉(zhuǎn)變成為需求概率分布q(y)。設(shè)轉(zhuǎn)移成本(距離函數(shù))為d(x,y),我們得到一個(gè)距離定義:

這兩個(gè)概率分布之間差異的度量就是 Wasserstein距離。它規(guī)避了KL散度和JS散度的許多痛點(diǎn)問(wèn)題。從目前它在各個(gè)領(lǐng)域的算法研究中的熱度來(lái)看,大有一統(tǒng)天下的趨勢(shì)。如果距離統(tǒng)一這一天到來(lái),玻爾茲曼機(jī),變分推斷,重整化群,生成對(duì)抗網(wǎng)絡(luò),逆向強(qiáng)化學(xué)習(xí),還有如今因大模型大熱的Transformer,在Wasserstein距離意義上將實(shí)現(xiàn)殊途同歸。

回到哈佛大學(xué)兩位學(xué)者的RGF-OT這篇文章,他們不僅確定了精確重整化群流的 Polchinski 方程等效于場(chǎng)相對(duì)熵的最優(yōu)輸運(yùn)梯度流,還巧妙的使用最優(yōu)傳輸?shù)乃枷雽⒅卣恨D(zhuǎn)化為變分問(wèn)題,這種RG的變分形式除了具有理論意義外,還可用于設(shè)計(jì)計(jì)算傳統(tǒng)場(chǎng)的重整化群流的神經(jīng)網(wǎng)絡(luò)。論文發(fā)布時(shí),Semon Rezchikov 連發(fā)了二十幾條Twitter,提綱挈領(lǐng)的描述了論文中的思想,如下是筆者的概括整理與解讀:

文章描述了重整化和熵最小化之間的系統(tǒng)聯(lián)系,同時(shí)為物理學(xué)中新的機(jī)器學(xué)習(xí)方法打開(kāi)了大門。重整化是指當(dāng)我們觀察具有不同精度水平的系統(tǒng)時(shí),參數(shù)值隨之改變,重整化群流描述了參數(shù)對(duì)尺度/精度的依賴關(guān)系。一個(gè)關(guān)鍵的直覺(jué)理解是重整化“模糊了”場(chǎng)本身,因而某種意義上等于增加了場(chǎng)的“熵”。論文提出一個(gè)關(guān)于 RG 的新觀點(diǎn),使得此直覺(jué)的主張可以在物理學(xué)的層面得到嚴(yán)格論證。關(guān)鍵舉措是將 RG 流連接到了最優(yōu)輸運(yùn)。

兩位學(xué)者的研究動(dòng)機(jī)來(lái)自 Zamolodchikov 的 c 定理,該定理定量的給出了在 RG 流下減少的二維場(chǎng)的物理量。該論文為所有維度的傳統(tǒng)場(chǎng)和大量 RG 方案提供了完全不同的基于相對(duì)熵的單調(diào)描述?;舅枷胧?RG 流的一個(gè)關(guān)鍵方程 --“Polchinski 方程”,在形式上類似于無(wú)限維的熱力學(xué)方程。而我們都知道在熱流下熵是不斷增加的。因此,尋找場(chǎng)的概率泛函的熵的模擬方法就變得很自然。盡管這個(gè)“熵”是嚴(yán)重發(fā)散的,論文為其提供了一個(gè)自然的而且普遍的正則化。

要獲取函數(shù)的梯度流,論文非常明確的主張使用來(lái)自最優(yōu)輸運(yùn)(OT) 的 Wasserstein 距離進(jìn)行度量。最優(yōu)輸運(yùn)是關(guān)于如何最好地將質(zhì)量從一種分布傳輸?shù)搅硪环N分布的方法。最優(yōu)輸運(yùn)主要在有限維環(huán)境中得到理解和應(yīng)用。筆者覺(jué)得,尺度變換的每一步,RG Flow 的流向,都將會(huì)沿著最優(yōu)輸運(yùn)的方向進(jìn)行,也就是物理量的 RG Flow 尺度變換前的概率分布與尺度變換后的概率分布的距離最近的方向,而這就是Wasserstein 距離決定的方向。

將 RG 表述為梯度流意味著可以為各個(gè) RG 步驟提供變分公式——RG 步驟最小化函數(shù)。然后可以引入萬(wàn)能的函數(shù)逼近器——神經(jīng)網(wǎng)絡(luò)——并最小化該函數(shù)。論文進(jìn)一步展示了如何構(gòu)建相應(yīng)的有效的神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算傳統(tǒng)場(chǎng)的 RG 流。文章還在幾個(gè)示例中討論了 RG 單調(diào)的計(jì)算,并將 RG 流重新表述為變分問(wèn)題,從而實(shí)現(xiàn)了新的數(shù)值技術(shù),并在神經(jīng)網(wǎng)絡(luò)方法和傳統(tǒng)場(chǎng)的 RG 流之間建立了系統(tǒng)的聯(lián)系。這種與傳統(tǒng)場(chǎng)的普遍而且系統(tǒng)化的聯(lián)系在該領(lǐng)域尚屬首次。而且最令兩位學(xué)者興奮的是數(shù)值應(yīng)用的廣闊前景,遠(yuǎn)遠(yuǎn)超出了論文最初的想法,可以觸發(fā)有效的數(shù)值分析,例如通過(guò)變分方法找到場(chǎng)的基態(tài)。

表述成RGF-OT文中概念體系,重整化群是量子場(chǎng)論和統(tǒng)計(jì)場(chǎng)論中使用的數(shù)學(xué)框架,用于理解物理系統(tǒng)的有效描述如何隨著我們改變觀察尺度而變化。它是一種系統(tǒng)地整合高能量自由度以獲得低能量有效理論的方法。精確重整化群 (ERG) 是 RG 的一種非微擾方法,它是在改變能量尺度時(shí)求解有效作用流的泛函微分方程。論文建立了 ERG 和最優(yōu)輸運(yùn)之間的聯(lián)系,提供了用最優(yōu)輸運(yùn)語(yǔ)言表達(dá)的 RG 的新信息理論公式。筆者認(rèn)為這同時(shí)為理論化現(xiàn)有的大模型transformer 建立了理論關(guān)聯(lián),參見(jiàn)“清熙”微信公眾號(hào)的相關(guān)文章,大模型transformer 在一定約束下,等價(jià)于RG 流。

如上文所述,我們知道,最優(yōu)輸運(yùn)也是一個(gè)數(shù)學(xué)框架,用于確定將給定的質(zhì)量(概率)分布移動(dòng)和重新排列為所需質(zhì)量(概率)分布的最佳方式,給定移動(dòng)質(zhì)量跨越指定距離的成本。這個(gè)問(wèn)題可以用兩種方式來(lái)表述:Monge 表述,其試圖找到一種傳輸函數(shù),使質(zhì)量從一個(gè)分布移動(dòng)到另一個(gè)分布的總成本最小,而且同時(shí)滿足某些約束;另一種是 Kantorovich 表述,其試圖找到一個(gè)積極的措施在滿足某些約束的同時(shí)最小化移動(dòng)質(zhì)量的總成本。Wasserstein 距離是概率分布空間上的距離度量,在最優(yōu)輸運(yùn)中起著核心作用,用于衡量?jī)蓚€(gè)概率分布之間的距離。世界的不斷演進(jìn),都是冥冥中遵循最小化各種代價(jià)或成本的方式進(jìn)行,最優(yōu)輸運(yùn)某種意義上是自然演化的必然方向和準(zhǔn)則。

論文中討論了RG流的變分特征為(近似)計(jì)算這種流提供了新的和有趣的數(shù)值方法。具體地說(shuō),我們將“場(chǎng)”在有限體積域上進(jìn)行點(diǎn)陣離散; 然后就可以使用標(biāo)準(zhǔn)蒙特卡羅方法從PΛ0[?]進(jìn)行采樣。上文公式告訴我們,這樣的采樣訪問(wèn)原則上足以解出Fτ , F2τ , ..., Fnτ。假設(shè)手頭有Fτ , F2τ , ..., Fnτ,在這種情況下,我們希望能夠從RG流分布PΛ0?nτ [?】 ≈ (Fnτ?? · · · ? F2τ?? Fτ?)PΛ0[?]中進(jìn)行采樣。而關(guān)于如何從這樣的分布中采樣,文中給出算法類似這樣:

如兩位學(xué)者在論文中的總結(jié),“ RG是量子場(chǎng)論和統(tǒng)計(jì)場(chǎng)論的中心思想之一,使我們能夠理解當(dāng)我們調(diào)整測(cè)量?jī)x器的精度時(shí),物理系統(tǒng)的有效描述是如何變化的。ERG方程是一種特別具有啟發(fā)性的重整化群的數(shù)學(xué)表述方法。典型的ERG Polchinski方程,是自然RG格式下RG流的泛函微分方程。論文證明了Polchinski方程可以被重塑為一個(gè)相對(duì)熵的梯度流。這里的梯度是關(guān)于最優(yōu)輸運(yùn)距離度量(具體來(lái)說(shuō),是Wasserstein-2度量的一個(gè)版本)的泛函泛化。

最優(yōu)輸運(yùn)理論目前對(duì)物理學(xué)家來(lái)說(shuō)還不太熟悉,但它是一個(gè)豐富的學(xué)科,對(duì)數(shù)學(xué)中的偏微分方程和概率論,以及計(jì)算機(jī)科學(xué)中的優(yōu)化和機(jī)器學(xué)習(xí)產(chǎn)生了深遠(yuǎn)的影響。我們?yōu)槲锢韺W(xué)家提供這一主題的綜述。我們的研究結(jié)果表明,最優(yōu)輸運(yùn)在RG理論中根深蒂固,使我們能夠從最優(yōu)輸運(yùn)中引入強(qiáng)大的工具來(lái)分析非攝動(dòng)RG流。例如,我們精確地解釋了RG流產(chǎn)生熵的方式,并闡明了這種方式如何與方案依賴性相互作用。我們發(fā)現(xiàn)了一個(gè)新的(非微擾)RG單調(diào); 提出了一種新的RG流變分公式,可用于重整化群數(shù)值方法的設(shè)計(jì)。我們的方法適用于比Polchinski的更一般的ERG方程,而且我們的框架提供了對(duì)流行ERG方案不直觀的特征的優(yōu)雅解釋。“

筆者從意識(shí)到GPT4等大模型的驚人的涌現(xiàn)能力時(shí)起,閱讀了大量的論文與文獻(xiàn),形成了自洽的理論框架用以解釋大模型的種種行為和進(jìn)展。這個(gè)系列筆者試著從不同層面,逐步帶著讀者梳理這一理論框架。隨著本系列的推進(jìn), 到本文,GPT4等大語(yǔ)言模型的可能的物理原理的脈絡(luò)應(yīng)該逐漸清晰起來(lái):

1. Embedding 構(gòu)建高維空間,用來(lái)建模語(yǔ)言文字圖像以及音視頻,連續(xù)變量離散化;

2. 以重整化群流的方式預(yù)訓(xùn)練,以在不同尺度上提煉語(yǔ)料數(shù)據(jù)中的信息概率分布;

3. 重整化群流的每一步流動(dòng),都沿著最優(yōu)輸運(yùn)的成本最低方向進(jìn)行;

4. 重整化群在不動(dòng)點(diǎn)附近因新語(yǔ)料帶來(lái)微擾而發(fā)生對(duì)稱性破缺,滑入不同的相空間;

5. 不同的相空間,對(duì)應(yīng)某種意義上的范疇,或或者可以形象化為語(yǔ)言或信息的結(jié)晶;

6. 被Prompt 置于某種context下,大模型內(nèi)部將限定在相應(yīng)的高維空間的子空間內(nèi)推理;

7. 推理是在子空間中的采樣,本質(zhì)是借助動(dòng)態(tài)Bayes推斷出原始概率分布,同樣遵循最優(yōu)輸運(yùn)。

從這個(gè)理論框架可以推斷,對(duì)語(yǔ)料數(shù)據(jù)做embedding后, 通過(guò)對(duì)其做profiling,然后可以構(gòu)建 RG 的數(shù)學(xué)公式,推導(dǎo)出其流動(dòng)的方向,并計(jì)算可能的不動(dòng)點(diǎn),從而借助新語(yǔ)料,對(duì)不動(dòng)點(diǎn)做微擾,促進(jìn)其進(jìn)入更有序的相空間,實(shí)現(xiàn)可控的可預(yù)測(cè)的涌現(xiàn)產(chǎn)生。另一方面,基于對(duì)相空間的內(nèi)部探測(cè),研究其模型結(jié)構(gòu),進(jìn)而可以指導(dǎo)動(dòng)態(tài)Bayes推理更貼切的采樣概率分布,增強(qiáng)生成的效果。

在此時(shí)點(diǎn),筆者覺(jué)得可以做些實(shí)驗(yàn),按照上述思路修改transformer, 做預(yù)訓(xùn)練,探查相空間結(jié)構(gòu),驗(yàn)證控制涌現(xiàn)的可行性,驗(yàn)證推理生成的改善效果。不知道是不是有大佬可以贊助幾臺(tái)8塊GPU的服務(wù)器,作為大模型訓(xùn)練環(huán)境用于此實(shí)驗(yàn),不勝感激!

作者:王慶法 麻省理工學(xué)院物理系學(xué)者,數(shù)據(jù)領(lǐng)域?qū)<遥紫瘮?shù)據(jù)官聯(lián)盟專家組成員

評(píng)論
????
貢士級(jí)
轉(zhuǎn)發(fā)了
2023-10-23
撫松縣新屯子鎮(zhèn)中學(xué)康志明
大學(xué)士級(jí)
2023-10-23
唐幫繁
少師級(jí)
增強(qiáng)生成效果。
2023-10-23