版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

AlphaFolding填補(bǔ)蛋白質(zhì)動態(tài)結(jié)構(gòu)預(yù)測空白!復(fù)旦大學(xué)等提出4D擴(kuò)散模型

HyperAI超神經(jīng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

蛋白質(zhì)的功能很大程度上取決于其 3D 結(jié)構(gòu)。19 世紀(jì)中期,科學(xué)界普遍認(rèn)為蛋白質(zhì)結(jié)構(gòu)是固定的、剛性的,類似「鎖與鑰匙」模型 (lock-and-key model),即蛋白質(zhì)與配體的結(jié)合是由固定的三維結(jié)構(gòu)決定的。然而,當(dāng) Daniel Koshland 提出酶與底物結(jié)合時會發(fā)生構(gòu)象變化的觀點(diǎn)后,傳統(tǒng)思維開始受到挑戰(zhàn)。

1980 年代,分子動力學(xué)模擬 (Molecular Dynamics, MD) 興起,首次從計算角度揭示了蛋白質(zhì)的運(yùn)動軌跡,自此,蛋白質(zhì)動態(tài)結(jié)構(gòu)的功能性作用受到越來越多的重視。對于生物技術(shù)研究人員和科學(xué)家而言,理解蛋白質(zhì)「運(yùn)動」的動態(tài)特征對理解生命過程、研發(fā)新型藥物都具有重要的意義。

舉例而言,G 蛋白偶聯(lián)受體 (GPCR) 是許多藥物的主要靶點(diǎn),占目前 FDA 批準(zhǔn)藥物的 30% 以上。然而,GPCR 不是剛性結(jié)構(gòu),而是具有高度的動態(tài)性,不同的構(gòu)象狀態(tài)會影響藥物結(jié)合模式。如果僅基于靜態(tài)晶體結(jié)構(gòu)設(shè)計藥物,可能會錯過關(guān)鍵的結(jié)合位點(diǎn),導(dǎo)致藥物親和力和選擇性不足。動態(tài)結(jié)構(gòu)預(yù)測可以幫助識別 GPCR 在生理環(huán)境下的多種構(gòu)象,從而優(yōu)化小分子藥物的設(shè)計,提高靶向治療的成功率。

在此背景下,來自復(fù)旦大學(xué)、上??茖W(xué)智能研究院的朱思語及漆遠(yuǎn)教授團(tuán)隊(duì),聯(lián)合南京大學(xué)姚遙教授,提出了一種創(chuàng)新性的 4D 擴(kuò)散模型 AlphaFolding,結(jié)合分子動力學(xué)模擬數(shù)據(jù),以學(xué)習(xí)動態(tài)蛋白質(zhì)結(jié)構(gòu)。這是首個基于擴(kuò)散模型的方法,能夠同時預(yù)測多個時間步長的蛋白質(zhì)運(yùn)動軌跡。

在基準(zhǔn)數(shù)據(jù)集上的驗(yàn)證結(jié)果表明,該新模型在預(yù)測包含最多 256 個氨基酸、跨度達(dá) 32 個時間步長的動態(tài) 3D 結(jié)構(gòu)方面表現(xiàn)出高精度,能夠有效捕捉穩(wěn)定狀態(tài)下的局部柔性以及顯著的構(gòu)象變化。

相關(guān)成果以「4D Diffusion for Dynamic Protein Structure Prediction with Reference and Motion Guidance」為題,已入選國際頂會 AAAI 2025,預(yù)印本已發(fā)布于 arXiv。

蛋白質(zhì)動態(tài)結(jié)構(gòu)預(yù)測研究尚存空白

AlphaFolding 模型可以被視作結(jié)構(gòu)生物學(xué)研究的重要進(jìn)展。所謂結(jié)構(gòu)生物學(xué),是以蛋白質(zhì)等生物大分子的結(jié)構(gòu)、運(yùn)動和相互作用的研究為基礎(chǔ)來闡明生命現(xiàn)象的科學(xué), 現(xiàn)已發(fā)展成為分子生物學(xué)的主流。

近年來,深度學(xué)習(xí)技術(shù)的進(jìn)步,加上 Protein Data Bank (PDB) 實(shí)驗(yàn)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的指數(shù)級增長,使得蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域取得了不少重要突破。其中,最知名的莫過于 AlphaFold2,其使用最新的人工智能算法對蛋白質(zhì)結(jié)構(gòu)實(shí)現(xiàn)了接近實(shí)驗(yàn)精度的精準(zhǔn)預(yù)測,相關(guān)成果被 Science 評為 2020 年十大科學(xué)突破之一。

無獨(dú)有偶,2021 年 7 月,華盛頓大學(xué)生物學(xué)家 David Baker 團(tuán)隊(duì)研發(fā)的 RoseTTAFold 構(gòu)建了一種「三軌 (three-track)」神經(jīng)網(wǎng)絡(luò),能在十幾分鐘之內(nèi)解析給定序列蛋白質(zhì)的三維結(jié)構(gòu)。
此外,大規(guī)模數(shù)據(jù)存儲庫的可用性促進(jìn)了蛋白質(zhì)構(gòu)象采樣研究的發(fā)展。例如,微軟研究院開發(fā)出一種名為 Distributional Graphformer (DiG) 的深度學(xué)習(xí)框架,旨在預(yù)測分子結(jié)構(gòu)在平衡態(tài)下的分布。傳統(tǒng)的分子動力學(xué)模擬和增強(qiáng)采樣方法雖然能夠獲得分子的平衡分布,但這些方法計算成本高且耗時,難以應(yīng)用于復(fù)雜的實(shí)際應(yīng)用場景。而 DiG 則是通過深度學(xué)習(xí)技術(shù),能夠快速生成真實(shí)多樣的構(gòu)象。

盡管蛋白質(zhì)結(jié)構(gòu)及其構(gòu)象預(yù)測都取得了重大突破,但動態(tài)結(jié)構(gòu)的研究仍然相對滯后。以 AlphaFold2 為例,其能夠準(zhǔn)確預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),但只能預(yù)測蛋白質(zhì)在一個瞬間的靜態(tài)結(jié)構(gòu),尚無法實(shí)現(xiàn)動態(tài)變化的預(yù)測。

2024 年 5 月,DeepMind 發(fā)布了升級后的 AlphaFold3,它能夠以前所未有的「原子精度」預(yù)測出所有生物分子的結(jié)構(gòu)和相互作用,包括蛋白質(zhì)、核酸和更小分子的 3D 結(jié)構(gòu),并揭示它們?nèi)绾谓M合在一起,但是其對生物分子的動態(tài) 3D 結(jié)構(gòu)預(yù)測依然存在很大的局限性。

因此,本研究新提出的創(chuàng)新性 4D 擴(kuò)散模型其實(shí)是為了彌補(bǔ)這一研究空白,重點(diǎn)關(guān)注蛋白質(zhì)結(jié)構(gòu)的動態(tài)特性,為更深入理解蛋白質(zhì)功能提供新的思路。研究人員充分利用高質(zhì)量的分子動力學(xué)模擬 (MD) 數(shù)據(jù),生成包含完整側(cè)鏈表示的動態(tài)蛋白質(zhì)結(jié)構(gòu),適用于由數(shù)百個氨基酸組成的復(fù)雜蛋白質(zhì)。這將擴(kuò)展 MD 模擬的適用范圍,使其能夠預(yù)測更大、更復(fù)雜的蛋白質(zhì)系統(tǒng)的動態(tài)行為,提升對蛋白質(zhì)動態(tài)特性的理解。

在預(yù)測多個時間步長的蛋白質(zhì)運(yùn)動軌跡方面表現(xiàn)出高精度

靜態(tài)蛋白質(zhì)模型相對容易構(gòu)建,那么動態(tài)的蛋白質(zhì)模型該如何表示呢?為了解決這一問題,研究人員采用 AlphaFold2 的基于坐標(biāo)框架 (frame-based) 蛋白質(zhì)結(jié)構(gòu)表示方法,并將其擴(kuò)展至?xí)r間維度,以描述隨時間變化的結(jié)構(gòu)變換。

在靜態(tài)蛋白質(zhì)建模中,蛋白質(zhì)由一系列氨基酸殘基 (amino acid residues) 組成,每個殘基由 backbone 框架進(jìn)行參數(shù)化。而在本研究中,研究人員將動態(tài)蛋白質(zhì)定義為包含 N 個氨基酸殘基,且其 backbone 框架在 S 個時間步 (time steps) 內(nèi)發(fā)生變換的系統(tǒng)。這些框架通過特殊歐幾里得變換 (Special Euclidean Transformations) 進(jìn)行變換,以保持局部框架到全局參考框架的方向。

蛋白質(zhì)中的所有額外原子坐標(biāo)根據(jù)與二面角 (torsion angles) 的依賴關(guān)系組織為剛性原子組 (rigid groups),以確?;瘜W(xué)結(jié)構(gòu)完整性。在每個剛性組內(nèi),所有原子相對位置和方向保持不變。結(jié)合變換參數(shù) (transformation parameters),模型可以在時間維度上從理想化的實(shí)驗(yàn)坐標(biāo)重建所有原子位置。

在此基礎(chǔ)上,下圖展示了整個研究模型構(gòu)建的方法:該擴(kuò)散模型以參考結(jié)構(gòu)和對應(yīng)的殘基序列 (amino acid residues sequence) 作為輸入,并生成一系列去噪后的 3D 蛋白質(zhì)結(jié)構(gòu) (denoised 3D structure) 作為輸出。


研究方法概述

研究人員使用 3D 結(jié)構(gòu)嵌入器 (3D structure embedder) 和 GeoFormer 分別對 3D 蛋白質(zhì)結(jié)構(gòu)和殘基序列進(jìn)行嵌入。不變點(diǎn)注意力 (Invariant Point Attention, IPA) 通過結(jié)合殘基的顯式框架信息來更新節(jié)點(diǎn)特征。

參考網(wǎng)絡(luò) (Reference Network) 和運(yùn)動對齊模塊 (Motion Alignment module) 基于參考 3D 蛋白質(zhì)結(jié)構(gòu)捕捉 3D 蛋白質(zhì)動力學(xué)序列。整個生成模型被構(gòu)造為基于分?jǐn)?shù)的擴(kuò)散模型 (score-based diffusion model),其中節(jié)點(diǎn)和邊的特征嵌入分別通過 EdgeUpdate 和 BackboneUpdate 模塊進(jìn)行更新。

構(gòu)建模型后,研究人員將所提出的框架與當(dāng)前短程到長程 (Short-term-to-long-term, S2L) 任務(wù)中的 DFF 和 Flow-Matching 進(jìn)行了對比實(shí)驗(yàn),所使用的數(shù)據(jù)集包括 ATLAS 和快速折疊蛋白 (Fast-Folding Proteins)。

結(jié)果如下表所示:在 ATLAS 數(shù)據(jù)集上的 S2L 任務(wù),研究提出的方法 將 R32 誤差從 4.60 降低至 2.12,顯著提高了長期預(yù)測的準(zhǔn)確性;在 Fast-Folding 數(shù)據(jù)集上的 S2L 任務(wù),研究提出的方法將 R32 誤差從 5.48 降低至 4.39,同樣表現(xiàn)出良好的長期預(yù)測能力。同時,研究提出的模型在 O2O 任務(wù)上的表現(xiàn)與 S2L 任務(wù)相當(dāng),這表明其優(yōu)秀的泛化能力。


DFF、FM 與本研究提出的方法在 ATLAS 蛋白質(zhì)數(shù)據(jù)集上的 Cα-RMSE 比較


DFF、FM 與本研究提出的方法在 Fast-Folding 蛋白質(zhì)數(shù)據(jù)集上的 Cα-RMSE 比較

此外,該方法能夠處理包含較長模擬時間的蛋白質(zhì),這些蛋白在每個軌跡步長上的動力學(xué)變化更大。實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了該方法在建模蛋白動力學(xué)方面的有效性 (efficacy in modeling protein kinetics)。

更進(jìn)一步,研究人員還通過可視化模型生成前兩個 TIC (時間一致性成分) 的動態(tài)蛋白質(zhì)分布,并與真實(shí)數(shù)據(jù)進(jìn)行比較。如下圖所示,新模型有效地預(yù)測了蛋白質(zhì)的動力學(xué)行為,與真實(shí)分布高度一致。


不同蛋白質(zhì)在前兩個 TIC 組件上的樣本分布

* 點(diǎn)的顏色越深,出現(xiàn)頻率越高,藍(lán)色曲線表示從 MD 數(shù)據(jù)估計的核密度分布

下圖則展示了在選定時間步上的逆擴(kuò)散過程,突出了蛋白質(zhì)結(jié)構(gòu)在去噪過程中逐漸變得更加一致的過程??梢钥吹剑?strong>所提出的方法有效地捕捉了蛋白質(zhì)的動力學(xué),生成了合理的軌跡。


從初始噪聲 (左) 經(jīng)過逆擴(kuò)散過程逐步形成蛋白質(zhì)結(jié)構(gòu) (右) 的可視化展示
* 粉色和黃色區(qū)域分別標(biāo)注了 α 螺旋和 β 折疊

蛋白質(zhì)結(jié)構(gòu)的動態(tài)特性將受到更多關(guān)注

蛋白質(zhì)在細(xì)胞環(huán)境中并非靜態(tài)存在,而是處于復(fù)雜的動態(tài)變化之中。傳統(tǒng)的靜態(tài)結(jié)構(gòu)預(yù)測方法雖然在揭示蛋白質(zhì)折疊和相互作用方面取得了重要進(jìn)展,但無法全面捕捉蛋白質(zhì)的動態(tài)行為。因此,動態(tài)蛋白質(zhì)結(jié)構(gòu)預(yù)測成為結(jié)構(gòu)生物學(xué)和計算生物學(xué)的前沿挑戰(zhàn)之一,近年來,也有越來越多的研究人員投身于這一方向。

2022 年 12 月,西湖大學(xué)李子青團(tuán)隊(duì)與廈門大學(xué)、德睿智藥合作,研發(fā)了能夠刻畫蛋白質(zhì)構(gòu)象變化與親和力預(yù)測的 AI 模型 ProtMD。這是第一個嘗試解析蛋白質(zhì)動態(tài)構(gòu)象的 AI 方法,給定藥物分子和靶點(diǎn)蛋白,ProtMD 預(yù)測藥物分子與生物體內(nèi)靶點(diǎn)蛋白質(zhì)結(jié)合后蛋白質(zhì)結(jié)構(gòu)的變化過程,推斷藥物與靶標(biāo)蛋白結(jié)合的穩(wěn)定性,預(yù)測藥物功能,從而提升 AI 藥物設(shè)計的精度和效率,加速臨床前藥物研發(fā)。

相關(guān)研究成果以「Pre-Training of Equivariant Graph Matching Networks with Conformation Flexibility for Drug Binding」為題,發(fā)表在 Advanced Science。

2024 年 8 月,康涅狄格大學(xué)的一項(xiàng)新研究揭示了一種先進(jìn)的計算模型和工具,能夠準(zhǔn)確預(yù)測蛋白質(zhì)的動態(tài)特征及其結(jié)晶傾向,相關(guān)研究成果以「Protein dynamics inform protein structure: An interdisciplinary investigation of protein crystallization propensity」為題發(fā)表在材料科學(xué)領(lǐng)域期刊 Matter 上。研究的重點(diǎn)在于蛋白質(zhì)的自然運(yùn)動和波動,即其搖擺特性,如何影響其功能屬性,尤其是蛋白質(zhì)形成高質(zhì)量晶體的能力。

2024 年 10 月,上海交通大學(xué)鄭雙佳課題組聯(lián)合星藥科技、中山大學(xué)藥學(xué)院以及美國萊斯大學(xué),提出了為蛋白質(zhì)動態(tài)對接 (dynamic docking) 設(shè)計的幾何深度生成模型 DynamicBind,可以有效地將蛋白質(zhì)構(gòu)象從最初的 AlphaFold 預(yù)測狀態(tài)調(diào)整到類似全息 (holo-like) 狀態(tài),為后 AlphaFold 時代的藥物研發(fā)提供了一種基于深度學(xué)習(xí)的、考慮蛋白動態(tài)變化的新研究范式。

相關(guān)研究以「DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model」為題,發(fā)表在 Nature Communications 上。

總而言之,動態(tài)蛋白質(zhì)結(jié)構(gòu)預(yù)測不僅能夠幫助理解生命過程,還能在藥物開發(fā)、疾病機(jī)理研究和工業(yè)生物技術(shù)等領(lǐng)域發(fā)揮重要作用。從 GPCR 藥物設(shè)計、蛋白-蛋白相互作用,到酶催化和蛋白質(zhì)聚集病理學(xué)研究,動態(tài)結(jié)構(gòu)預(yù)測將不斷推動生命科學(xué)的前沿發(fā)展。