2024年5月AlphaFold 3問世,在預測生物分子結(jié)構(gòu)方面再次升級,不僅提升了預測精度,其適用性也更加廣泛,很多人認為這是具有里程碑意義的進展。人工智能究竟是如何預測蛋白質(zhì)結(jié)構(gòu)的,為什么它的準確率如此之高?本文將簡要介紹AlphaFold系列預測蛋白質(zhì)結(jié)構(gòu)的基本原理。
撰文 | 陳清揚
神秘的蛋白質(zhì)折疊
提到蛋白質(zhì),大家首先可能想到,它是一種人體必需的營養(yǎng)素,也可能會想到煎蛋、牛排、或是一鍋美美的鯽魚豆腐湯。蛋白質(zhì)是美食的代名詞,更是生命功能的物質(zhì)基礎(chǔ),處處發(fā)揮作用:負責運送氧氣的血紅蛋白是蛋白質(zhì);幫助我們消化食物的消化酶是蛋白質(zhì);胰島素、甲狀腺素等激素是蛋白質(zhì);參加免疫反應的抗體也是蛋白質(zhì)……據(jù)估計,人體內(nèi)至少存在2萬種不同類型的蛋白質(zhì),這些蛋白質(zhì)的結(jié)構(gòu)和功能千差萬別,但構(gòu)成它們的基本元素是一樣的——由20種氨基酸通過不同的排列組合而構(gòu)成,譬如胰島素就是由16種、51個氨基酸構(gòu)成的。
當不同的氨基酸連成一串的時候,它們會脫水形成肽鏈,也就是蛋白質(zhì)的一級結(jié)構(gòu);而這樣的一級結(jié)構(gòu)是不穩(wěn)定的,受到疏水作用、氫鍵和范德華力等影響,肽鏈最終會折疊成一個非常復雜而穩(wěn)定的三維結(jié)構(gòu)。圖1是一個蛋白質(zhì)折疊前后對比的例子。
圖1:蛋白質(zhì)折疊示意圖
蛋白質(zhì)折疊成何種結(jié)構(gòu)決定了它將具有何種功能,于是理解蛋白質(zhì)如何折疊就成了一個十分重要的研究課題,這便是“蛋白質(zhì)折疊問題”。一個蛋白質(zhì)如果因為各種原因而沒有正確折疊,就有可能不會正常發(fā)揮其功能,從而引發(fā)疾病,阿爾茲海默病、帕金森等疾病都和蛋白質(zhì)的錯誤折疊有關(guān)。此外,在藥物設(shè)計上面,研究人員常常需要開發(fā)具有特定功能的蛋白質(zhì),而這需要對蛋白質(zhì)折疊有深入理解。
1970年代,美國生物學家、諾貝爾獎得主克里斯蒂安·安芬森(Christian B. Anfinsen)提出[1]:當環(huán)境條件合適(溫度、pH值等)時,蛋白質(zhì)折疊后的穩(wěn)定三維結(jié)構(gòu)完全由其氨基酸序列決定。這就是影響深遠的安芬森假說(Anfinsen's dogma),它背后的深意是:盡管蛋白質(zhì)折疊的過程十分復雜,其中有各種力、分子的相互作用,但所有的信息竟然都包含在了其最初的氨基酸序列之中,這個過程又是如何發(fā)生的呢?于是“蛋白質(zhì)結(jié)構(gòu)預測問題”,即給定蛋白質(zhì)的氨基酸序列,輸出其最終折疊后的三維結(jié)構(gòu),成了分子生物學中的一座圣杯。
世界各地的生物學家拿起計算機這件強大武器,設(shè)計各路算法來追逐這座圣杯。這里有一個問題:為什么不直接通過實驗觀測蛋白質(zhì)來確定其空間結(jié)構(gòu)呢?事實上,自1970年代以來,通過實驗方法來確定蛋白質(zhì)結(jié)構(gòu)在不斷進步,精度不斷提高,特別是冷凍電鏡技術(shù)得到應用后,結(jié)構(gòu)生物學得到了長足的發(fā)展。通過實驗方法確定的蛋白質(zhì)結(jié)構(gòu)也被認為是標準答案。不過這些實驗方法非常耗時耗力,據(jù)估計,用實驗方法確定一個蛋白質(zhì)結(jié)構(gòu)需要10萬美元和長達數(shù)月的時間[2]。因此,如果能設(shè)計一個計算機算法來預測蛋白質(zhì)三維結(jié)構(gòu),那將會大大地加速蛋白質(zhì)結(jié)構(gòu)的分析。并且計算機科學和算力的飛速發(fā)展也給生物學家們敞開了一扇新的大門,但是,用計算機算法來做預測絕非易事。
計算機預測的兩種方式
使用計算機來對自然過程的結(jié)果進行預測通常有兩種方式。第一種方式基于物理學,模擬計算分子運動過程,我們不妨稱之為“模擬派”。這種方式在科學計算領(lǐng)域有廣泛應用,我們每天都看的天氣預報正是通過計算機來模擬大氣運動實現(xiàn)的。類似地,看過《三體》的讀者們一定都知道,三體運動不存在精確的解析解,但可以通過計算機進行數(shù)值模擬:將連續(xù)的物理過程模擬成很多離散的小步,然后在每一小步計算出可以接受的近似解,依次迭代完成最終的模擬。然而,要高分辨率地模擬物理過程需要巨大的計算量。
在蛋白質(zhì)結(jié)構(gòu)預測領(lǐng)域,F(xiàn)olding@Home便是一項知名的“模擬派”項目,它由斯坦福大學教授 Vijay Pande 于2000年發(fā)起,聯(lián)合全世界志愿者的計算機來構(gòu)成一個超大的分布式計算機,它同時也是全世界第一臺 exaflops 級別(每秒進行1018次雙精度浮點數(shù)計算)的超級計算機。這樣強大的算力使得 Folding@Home能夠?qū)Φ鞍踪|(zhì)折疊過程進行原子級別的模擬,超出先前估計可模擬的時段數(shù)千倍,其成果已經(jīng)參與了200余篇科學論文的發(fā)表。
模擬法的優(yōu)勢在于它可以模擬出完整的、動態(tài)的分子運動過程;但是另一方面,由于需要巨大的計算量,對于比較大的蛋白質(zhì),模擬出最終的三維結(jié)構(gòu)需要非常長的時間。不過,正是因為“模擬派”試圖模擬蛋白質(zhì)折疊完全的過程,這使得他們的工作的意義遠遠不止預測最終的三維結(jié)構(gòu)。試想,若是計算機能將蛋白質(zhì)折疊完整的動態(tài)過程如動畫般展現(xiàn)出來,這對于科學家理解蛋白質(zhì)的錯誤折疊和藥物設(shè)計都會有極大幫助。正因如此, Folding@Home在對于蛋白質(zhì)錯誤折疊疾病的理解和治療上已經(jīng)做出了若干貢獻。
計算機預測自然過程的第二種方法是基于統(tǒng)計規(guī)律的預測,我們可以稱之為“統(tǒng)計派”。“統(tǒng)計派”不直接對物理過程進行模擬,而是將其視作一個黑箱,通過對過往的輸入和輸出尋找規(guī)律,進而對新的輸入進行預測。換言之,這個過程是“數(shù)據(jù)驅(qū)動”的,首先需要有過往歷史數(shù)據(jù),然后從數(shù)據(jù)中尋找規(guī)律。因為不需要模擬黑箱中完整的物理過程,“統(tǒng)計派”顯然比“模擬派”在計算上更高效。還是以天氣預報作為例子,“統(tǒng)計派”從過往的天氣中來尋找規(guī)律和特征,運用數(shù)理統(tǒng)計方法對未來做出預報,這就是天氣預報中的數(shù)理統(tǒng)計預報法。
然而對于蛋白質(zhì)結(jié)構(gòu)預測的問題,想要精確地找出輸入輸出之間的規(guī)律也十分困難,因為理論上任意兩個氨基酸之間都可能發(fā)生相互作用,其中的物理化學過程十分復雜。此外,“統(tǒng)計派”還有一個致命的難點在于,當過往數(shù)據(jù)中缺乏與當前輸入類似的輸入時,預測將會變得更加困難。
AlphaFold為何如此耀眼?
“統(tǒng)計派”的一大巨作便是DeepMind公司開發(fā)的AlphaFold了。其實在AlphaFold橫空出世之前,其他的預測算法(如 Rosetta@Home)也一直在進步,準確率不斷提升,然而AlphaFold的光芒實在太耀眼,以至于前人算法的進步顯得十分暗淡。
2020年,AlphaFold 2參加了蛋白質(zhì)結(jié)構(gòu)預測技術(shù)關(guān)鍵測試(CASP)比賽。這是蛋白質(zhì)結(jié)構(gòu)預測界的奧林匹克競賽,來自世界各地的參賽團隊會拿到未知結(jié)構(gòu)的蛋白質(zhì)的氨基酸序列,然后使用自己的算法預測其三維結(jié)構(gòu),最后和實驗測定結(jié)果進行比較,相似度越高分數(shù)就越高。在這一年的比賽中,AlphaFold 2取得了中位數(shù)分數(shù)92.4分(滿分100分;90分以上被認為預測方法可與實驗方法媲美)的高分預測結(jié)果,它預測的蛋白質(zhì)三維結(jié)構(gòu)和最后實驗觀測的標準答案,僅有原子大小尺度的差異!這樣出色的成績以至于讓很多人認為,這個困擾了生物學界50年的問題就這樣被解決了!當然,“圣杯”不會那么容易被拿下,但生物學家迎來了一件利器。
AlphaFold是怎么做到如此準確的預測的呢?它的核心武器就是深度學習。深度學習是一種從2010年代開始蓬勃發(fā)展的機器學習技術(shù),它通過建立多層的神經(jīng)網(wǎng)絡(luò)來模擬人腦的學習方式,具有強大的泛化能力和表達能力,能夠自動地從過往數(shù)據(jù)中學習復雜的模式與特征,以此對于新輸入進行精準預測。事實上,在2018年的CASP比賽中AlphaFold便已經(jīng)參賽并奪得頭籌,不過那時還尚未達到如此高的預測準確率。
不過,AlphaFold 2同樣也面臨諸多挑戰(zhàn)。首先,深度學習通常需要龐大的數(shù)據(jù)集來進行學習,而當時的蛋白質(zhì)數(shù)據(jù)庫(Protein Data Bank)中只有大約17萬條蛋白質(zhì)數(shù)據(jù)。這聽起來似乎已經(jīng)不少了,但是我們橫向?qū)Ρ纫幌戮椭肋@個數(shù)據(jù)量有多么捉襟見肘:同樣是在2020年訓練的語言模型GPT-3使用了3000億個token(可以理解為“詞”)作為數(shù)據(jù)集,這可比17萬大了許多個數(shù)量級。其次,AlphaFold 2預測出的三維結(jié)構(gòu)要遵循基本的空間幾何規(guī)律。從分子結(jié)構(gòu)來說,三個原子所構(gòu)成的三角形應該遵循兩邊之和大于第三邊的基本規(guī)律,而這樣的規(guī)律又應該如何與機器學習模型訓練的過程結(jié)合起來?換言之,如何讓機器在有限的數(shù)據(jù)集中習得這些知識呢?
AlphaFold預測蛋白質(zhì)基本原理
圖2是AlphaFold 2深度學習模型架構(gòu)示意圖。最左邊的輸入表示需要被預測結(jié)構(gòu)的序列(input sequence);旁邊畫了一個小人,代表人類的某種蛋白質(zhì)。
圖2:AlphaFold 2深度學習模型架構(gòu)圖
接下來,這個輸入序列被轉(zhuǎn)換成兩種不同的信息,傳入后面的神經(jīng)網(wǎng)絡(luò)進行迭代和學習。第一個信息,上面的“MSA”是多序列對比(Mutiple Sequence Alignment)的縮寫,意思是說,我們從一個現(xiàn)有的基因數(shù)據(jù)庫中搜索出與當前輸入序列最接近的一些序列進行對比。當然,搜出來的這些序列不一定是存在于人體中的,圖中就舉例了三個類似的序列,分別畫上了魚、兔子和雞,代表其來自相應的生物體。搜索這些類似的氨基酸序列有什么用呢?這是因為生物學里有一些基本的遺傳規(guī)律,通過觀察其他存在的相似的序列,我們可以推測兩個氨基酸之間是否存在關(guān)聯(lián),而這對于預測最終的三維結(jié)構(gòu)是非常有用的信息。舉個例子,我們可能發(fā)現(xiàn)某兩個氨基酸(譬如一個在序列首位、一個在末尾)總是成對地出現(xiàn)突變(mutation),這就意味著它們倆在最后的三維結(jié)構(gòu)中會有某種關(guān)聯(lián)。
在基因數(shù)據(jù)庫中搜出來了以后,MSA信息會被轉(zhuǎn)換成一個矩陣,也就是圖片中橙色的矩陣(MSA representation)。這個矩陣的維度是(s,r,c),s代表序列數(shù),r代表氨基酸序列的長度,c代表氨基酸embedding的長度,相當于我們用一個向量來表示一個氨基酸,其長度就是c。這個MSA representation矩陣在模型的訓練過程中會被反復迭代和更新。
第二個用來學習和迭代的信息是圖2中的“Pair Representation”,它是一個維度為(r,r,c)的矩陣,相當于把輸入序列橫著和豎著排列起來(行和列),形成一個正方形的矩陣;而元素(i,j)代表氨基酸i和氨基酸j之間的空間關(guān)系,如距離、角度等,用一個長度為c的向量來表示。換言之,這里用了兩個不同的矩陣,一個是MSA,代表生物演化信息;另一個是Pair,代表空間幾何信息。在模型訓練的過程中,這二者相輔相成、相互更新,使得模型能夠充分融合、匯總兩者包含的信息。
MSA和Pair Representation被傳入Evoformer模塊中進行更新,圖3是DeepMind論文中提供的Evoformer展開圖。如它的名字所暗示,Evoformer是Transformer的一個變種,即在普通的Transformer模塊里加入了各種MSA與Pair representation相互融合的操作,以及一些特定的模塊使得機器能夠習得空間幾何關(guān)系,等等。關(guān)于Transformer已經(jīng)有許多介紹,這是一種十分強大的神經(jīng)網(wǎng)絡(luò)架構(gòu),特別擅長捕捉長序列的上下文關(guān)系(long-range dependency),ChatGPT名字里的T正是Transformer。
圖3:Evoformer模塊展開圖
Transformer的核心是一種被稱為自注意力(Self-Attention)的機制,它使得模型能夠?qū)W習出一段序列中每一個元素和其他元素的相關(guān)程度的高低。在語言模型的應用中,它能幫助模型學習到一句話中每一個詞和其他詞的相關(guān)性。在蛋白質(zhì)結(jié)構(gòu)預測的應用中,輸入的氨基酸序列恰恰也是一種序列——氨基酸按順序排列在一起,互相之間可以發(fā)生相互作用,這使得自注意力機制十分適用于這個場合。這也充分顯示了Transformer的通用性,只要是可以表示為序列的數(shù)據(jù),不管是文字、語音、圖像,還是蛋白質(zhì)序列,都可以使用Transformer來捕捉上下文信息。
原始的Transformer處理的是文字這種一維的序列,而AlphaFold兩種不同的輸入(MSA和Pair representation)都是二維的矩陣,于是在Evoformer模塊中,自注意力是以軸向注意力(Axial attention)的方式被使用,它是自注意力的一個變種,適用于對超過一維的數(shù)據(jù)進行上下文捕捉,即每次按某一個軸來進行那個維度上的自注意力計算。對于矩陣(二維)而言,是按行(row-wise)和列(column-wise)進行自注意力計算。
Evoformer模塊里還包括了若干用來滿足三角不等式(即三角形的兩邊之和大于第三邊)的模塊,譬如Triangle multiplicative update(黃色框)和Triangle self-attention(粉紅色框),兩者皆可用來幫助模型學習到三角不等關(guān)系。前者需要的計算量更小,但AlphaFold 2團隊發(fā)現(xiàn),兩者一起用預測準確率更好。這樣的Evoformer模塊一共有48個,使得模型可以一層一層地學到深層次的特征模式,在此過程中,不斷地更新MSA和pair representation,使得它們能夠表征更加豐富、準確的特征信息。
我們前面提到,Alphafold 2的挑戰(zhàn)之一就是數(shù)據(jù)集比較小。研究人員的解決方案是,除了將MSA等演化相關(guān)的先驗的人工知識嵌入到神經(jīng)網(wǎng)絡(luò)之中以外,還使用了一些擴充數(shù)據(jù)集的技術(shù),如Self-Distillation——他們使用了一個未標注的、具有約35萬條氨基酸序列的新數(shù)據(jù)集Uniclust30,并使用AlphaFold 2對其進行預測,然后通過將其中高置信度的預測結(jié)果加入到原始PDB數(shù)據(jù)集中,形成了一個擴充后的新數(shù)據(jù)集,然后在這個新的數(shù)據(jù)集上對模型進行重新訓練,這樣做也提升了最后的預測準確率。
總體而言,在訓練集不是很大的情況下,AlphaFold 2的一大設(shè)計挑戰(zhàn)就是將人工的知識和模型學習的過程有機地融合在一起。AlphaFold 2也很好地應對了這個挑戰(zhàn),最后模型取得了出色的預測效果,掀起了一場生物信息學的革命。
更通用的AlphaFold 3
AlphaFold的腳步并沒有止步于AlphaFold 2,就在2024年5月,DeepMind推出AlphaFold 3,再次引起業(yè)界轟動。AlphaFold 3不僅僅能夠預測蛋白質(zhì)的三維結(jié)構(gòu),也能預測更廣泛的生物分子復合物的結(jié)構(gòu)(包括蛋白質(zhì)、核酸、配體等),以及生物分子之間的相互作用。有趣的是,盡管AlphaFold 3對于預測精度和廣度都有提升,它自身的模型架構(gòu)相比AlphaFold 2卻更加簡化而且通用了。AlphaFold 2雖然使用了Transformer這種通用的模型,但同時它也加入了許多工程化的細節(jié)去提升最后預測的結(jié)果。而在AlphaFold 3中,工程化的細節(jié)得到了簡化,取而代之的是更強大、更通用的模塊。譬如AlphaFold 3大大降低了對于MSA的使用和依賴,而主要使用Pair representation進行學習。AlphaFold 2中的核心模塊——Evoformer的數(shù)量在AlphaFold 3中被減到了4個;同時AlphaFold 3也增加了一個新的模塊Pairformer,而這個模塊只對Pair representation進行更新,其數(shù)量是48個。這樣的設(shè)計是為何呢?如我們前文所述,MSA中保存的是從基因數(shù)據(jù)庫中搜出來的氨基酸序列,其包含了蛋白質(zhì)演化信息,而Pair representation包含的是空間幾何信息。毫無疑問,后者是一種更加通用的表達方式,它不僅限于蛋白質(zhì)這一種分子,也適用于配體等其他分子。因此,降低對MSA的依賴而加強對Pair representation的學習與更新能使得模塊更加通用化、能處理更多不同類型的輸入,這也正是AlphaFold 3的目標。
AlphaFold 3另一通用化的設(shè)計在其結(jié)構(gòu)模塊(structure module),即從Pair representation生成最終的三維結(jié)構(gòu)圖。上一代的AlphaFold 2把蛋白質(zhì)最終的三維結(jié)構(gòu)視為一系列由氨基酸殘基構(gòu)成的三角形在空間中的旋轉(zhuǎn)和平移構(gòu)成的主干框架(backbone frames)以及側(cè)鏈的扭轉(zhuǎn)(side-chain torsion),通過讓模型計算出這些三角形的旋轉(zhuǎn)角度、平移大小以及側(cè)鏈的扭轉(zhuǎn)角度來得出最終的蛋白質(zhì)三維圖像,這其中的技術(shù)細節(jié)十分復雜。而AlphaFold 3刪繁就簡,模型架構(gòu)中不再手動地編入三角形、旋轉(zhuǎn)、平移等概念,而是直接采用了一個標準的擴散模塊(diffusion module),這個擴散模塊將直接預測每一個原子在三維結(jié)構(gòu)中的坐標,這也使得AlphaFold 3不再僅僅局限于蛋白質(zhì)這一種分子的結(jié)構(gòu)預測了。令人驚奇的是,盡管AlphaFold 3在模型架構(gòu)中去掉了許多“蛋白質(zhì)特定”的部分,其在“蛋白質(zhì)結(jié)構(gòu)預測”這一問題上的預測結(jié)果竟然也超越了AlphaFold 2。這似乎意味著,當模型走向通用化的時候,它以自己的方式從更加多樣化的輸入和任務(wù)中學習到了一些更本質(zhì)的物理、化學規(guī)律,其海量的矩陣中,似乎包含了對我們所生活的世界更精準的認知。而這些更廣博的知識也使得AlphaFold 3在專項任務(wù)上的表現(xiàn)更加出色。
最后總結(jié)一下,AlphaFold系列通過精準預測出最終的蛋白質(zhì)結(jié)構(gòu),成為科研工作者的有力幫手;也再次證明了深度學習從數(shù)據(jù)中學習復雜模式的能力,借此AI變得更加智能與多任務(wù)化。盡管如此,人類對于蛋白質(zhì)折疊完整的動態(tài)過程和機理仍然需要更多的理解,但AlphaFold已經(jīng)成為了AI推動科學發(fā)展的一座里程碑,而愈發(fā)強大的AI對于科學研究的助力還將繼續(xù)。
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號,回復四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權(quán)說明:歡迎個人轉(zhuǎn)發(fā),任何形式的媒體或機構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請在「返樸」微信公眾號內(nèi)聯(lián)系后臺。