版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

清華/倫敦大學(xué)學(xué)院等首創(chuàng)蛋白質(zhì)-RNA語言模型融合方案,結(jié)合親和力預(yù)測刷新SOTA

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

阿爾茨海默病、帕金森病、癲癇…..這些令人「聞名膽顫」的神經(jīng)退行性疾病是老年健康的隱形殺手,而這類疾病的發(fā)生多與蛋白質(zhì)-RNA 之間的異常結(jié)合相關(guān)。

在生物醫(yī)學(xué)領(lǐng)域,研究蛋白質(zhì)-RNA 結(jié)合至關(guān)重要,因?yàn)樗诨虮磉_(dá)調(diào)控、RNA 加工與剪接、翻譯調(diào)控以及細(xì)胞應(yīng)激反應(yīng)等多個生物學(xué)過程中發(fā)揮著核心作用。理解蛋白質(zhì)-RNA 結(jié)合的機(jī)制是揭示復(fù)雜基因調(diào)控過程和解析疾病的遺傳基礎(chǔ)的關(guān)鍵,同時,蛋白質(zhì)-RNA 相互作用在 RNA 靶向治療中也具有重要應(yīng)用,為癌癥、遺傳性疾病及病毒性疾病的治療提供了新的方向。

近日,在國際人工智能頂會「第 39 屆人工智能年會」(The 39th Annual AAAI Conference on Artificial Intelligence, AAAI 2025) 公布的入選成果中,來自清華大學(xué)、倫敦大學(xué)學(xué)院、莫納什大學(xué)、北京郵電大學(xué)的聯(lián)合團(tuán)隊(duì)提出的 CoPRA 模型引起了圈內(nèi)廣泛關(guān)注,并入選 Oral 環(huán)節(jié)。

這是首次嘗試通過復(fù)雜結(jié)構(gòu)架構(gòu)將蛋白質(zhì)語言模型 (PLM) 與 RNA 語言模型 (RLM) 結(jié)合,用于蛋白質(zhì)-RNA 結(jié)合親和力預(yù)測。為了測試 CoPRA 性能,研究人員從多個數(shù)據(jù)源整理了最大的蛋白質(zhì)-RNA 結(jié)合親和力數(shù)據(jù)集,并在 3 個數(shù)據(jù)集上評估了模型性能,結(jié)果顯示 CoPRA 在多個數(shù)據(jù)集上達(dá)到了最先進(jìn)的性能。

相關(guān)成果以「CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction」為題,已發(fā)布預(yù)印本于 arXiv。

論文地址:
https://arxiv.org/abs/2409.03773

CoPRA 倉庫地址:

https://github.com/hanrthu/CoPRA

開源項(xiàng)目「awesome-ai4s」匯集了 200 余篇 AI4S 論文解讀,并提供海量數(shù)據(jù)集與工具:
https://github.com/hyperai/awesome-ai4s

生物醫(yī)學(xué)界持續(xù)推進(jìn)蛋白質(zhì)-RNA 相互作用研究

過去多年,生物醫(yī)學(xué)界的研究人員一直沒有停下過對于蛋白質(zhì)-RNA 相互作用的研究工作,并且取得了不少進(jìn)展。

CLIP 實(shí)驗(yàn)技術(shù)作為 RNA 研究最重要的技術(shù)之一,可以解析 RNA 結(jié)合蛋白 (RBP) 在整個轉(zhuǎn)錄組上的結(jié)合圖譜,是系統(tǒng)理解一個RBP 功能及其調(diào)控機(jī)制的基礎(chǔ)。但 CLIP 實(shí)驗(yàn)費(fèi)時費(fèi)力,一次只能提供某一 RBP 在特定細(xì)胞環(huán)境下的 RNA 結(jié)合位點(diǎn),而且對于實(shí)驗(yàn)材料要求較高。然而,蛋白質(zhì)和 RNA 的結(jié)合隨著細(xì)胞環(huán)境的變化可能發(fā)生很大的改變,但研究蛋白質(zhì)對 RNA 的調(diào)控需要相同細(xì)胞環(huán)境的結(jié)合信息。

為了解決 RBP 在不同細(xì)胞環(huán)境下結(jié)合動態(tài)變化的問題,2021 年 2 月,清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心張強(qiáng)鋒課題組在 Cell Research 雜志上,發(fā)表了題為「Predicting dynamic cellular protein–RNA interactions by deep learning using in vivo RNA structures」的研究成果。該工作使用 icSHAPE 實(shí)驗(yàn)解析了 7 種常用細(xì)胞類型的 RNA 二級結(jié)構(gòu)圖譜,并開發(fā)人工智能算法,整合實(shí)驗(yàn)獲得的細(xì)胞內(nèi) RNA 結(jié)構(gòu)以及對應(yīng)細(xì)胞環(huán)境的 RBP 結(jié)合信息,建立了基于細(xì)胞內(nèi) RNA 結(jié)構(gòu)信息預(yù)測細(xì)胞內(nèi) RBP 動態(tài)結(jié)合的新方法 PrismNet。

為預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力,業(yè)界也有多個計算方法被相繼提出,包括基于序列和基于結(jié)構(gòu)的方法?;谛蛄械姆椒ǚ謩e使用不同的序列編碼器處理蛋白質(zhì)和 RNA 序列,并隨后建模它們之間的相互作用。然而,由于結(jié)合親和力主要由結(jié)合界面的結(jié)構(gòu)決定,這些方法的性能通常受到限制。其他近期提出的方法專注于提取結(jié)合界面的結(jié)構(gòu)特征,如能量和接觸距離?;谶@些提取的特征,研究人員發(fā)展出基于結(jié)構(gòu)的機(jī)器學(xué)習(xí)方法,可用于親和力預(yù)測。然而,由于數(shù)據(jù)集規(guī)模的限制,這些方法在新樣本上的泛化能力有限,且高度依賴于特征工程。

隨著人工智能技術(shù)的興起,不少蛋白質(zhì)語言模型 (PLMs) 和 RNA 語言模型 (RLMs) 已被開發(fā),這些模型在各種下游任務(wù)中展現(xiàn)了出色的性能和泛化能力。同時,由于蛋白質(zhì)/RNA 的三維結(jié)構(gòu)對于理解其功能至關(guān)重要,將結(jié)構(gòu)信息融入語言模型也成為一種新趨勢。

比如,美國密蘇里大學(xué)、肯塔基大學(xué)與阿拉巴馬大學(xué)組成的團(tuán)隊(duì)利用多視角對比學(xué)習(xí)技術(shù)將關(guān)鍵的蛋白質(zhì)結(jié)構(gòu)信息融入到蛋白質(zhì)語言模型中。基于這個設(shè)想,該團(tuán)隊(duì)開發(fā)了 S-PLM:一種具有蛋白質(zhì) 3D 結(jié)構(gòu)信息感知能力的蛋白語言模型。S-PLM 在多項(xiàng)蛋白質(zhì)預(yù)測任務(wù)中展現(xiàn)出卓越性能,使用輕量化調(diào)優(yōu)工具進(jìn)行訓(xùn)練后,S-PLM 在蛋白質(zhì)功能預(yù)測、酶反應(yīng)類別預(yù)測和二級結(jié)構(gòu)預(yù)測等任務(wù)中的性能達(dá)到或超過當(dāng)前最先進(jìn)的方法。相關(guān)研究以「S-PLM: Structure-aware Protein Language Model via Contrastive Learning between Sequence and Structure」為題發(fā)表于 bioRxiv。

不過,盡管當(dāng)前業(yè)界的研究展示了結(jié)構(gòu)信息驅(qū)動的生物語言模型在交互任務(wù)中的巨大潛力,但將來自不同生物學(xué)領(lǐng)域的預(yù)訓(xùn)練模型結(jié)合的工作仍然少見。而在清華大學(xué)、倫敦大學(xué)學(xué)院、莫納什大學(xué)、北京郵電大學(xué)聯(lián)合提出的 CoPRA 中,首次嘗試將蛋白質(zhì)和 RNA 語言模型與復(fù)雜結(jié)構(gòu)信息結(jié)合,用于蛋白質(zhì)-RNA 結(jié)合親和力預(yù)測。

設(shè)計輕量級 Co-Former 模型構(gòu)建 CoPRA

整體而言, CoPRA 模型的構(gòu)建過程如下圖所示:

圖:CoPRA 模型概述

首先,研究人員將蛋白質(zhì)和 RNA 序列分別輸入到 PLM 和 RLM 中,然后從兩個語言模型的輸出中選擇交互界面處的嵌入,作為后續(xù)跨模態(tài)學(xué)習(xí)的序列嵌入。同時,其也從交互界面提取結(jié)構(gòu)信息 (interface feature),作為配對嵌入。

然后,研究人員設(shè)計了一個輕量級的 Co-Former 模型,將來自兩個語言模型的界面序列嵌入與復(fù)雜結(jié)構(gòu)信息結(jié)合,形成結(jié)構(gòu)-序列融合模塊 (structure-sequence fusion module)。具體而言,Co-Former 通過結(jié)構(gòu)引導(dǎo)的多頭自注意力和外積模塊融合 1D 和配對嵌入,并應(yīng)用任務(wù)相關(guān)的注意力掩碼。Co-Former 的輸出特殊節(jié)點(diǎn)和配對嵌入根據(jù)不同任務(wù)進(jìn)行使用,包括兩個預(yù)訓(xùn)練任務(wù) (Pretraining task) 和兩個下游親和力任務(wù) (Downstream task)。

研究人員還為 Co-Former 提出了一個雙范圍預(yù)訓(xùn)練策略,以建模粗粒度的對比交互分類 (CPRI) 和精細(xì)粒度的界面距離預(yù)測 (MIDM),以原子級精度進(jìn)行學(xué)習(xí)。

為了評估 CoPRA 與其他模型的性能,研究人員需要解決統(tǒng)一標(biāo)注標(biāo)準(zhǔn)數(shù)據(jù)集缺失的問題。于是,他們從 3 個公共數(shù)據(jù)集收集了樣本:PDBbind、PRBABv2 和 ProNAB,整理了最大的蛋白質(zhì)-RNA 結(jié)合親和力數(shù)據(jù)集 PRA310,并在 PRA310 和 PRA201 數(shù)據(jù)集上評估了其模型性預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力的能力。

*PRA201 數(shù)據(jù)集:PRA310 的子集,每個復(fù)合物僅包含一個蛋白鏈和一個 RNA 鏈,并且有更嚴(yán)格的長度限制

CoPRA 在預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力方面性能最佳

如下表所示,CoPRA 的從頭訓(xùn)練版本在 PRA310 數(shù)據(jù)集上達(dá)到了最佳性能。此外,大多數(shù)使用 LM 嵌入作為輸入的方法表現(xiàn)優(yōu)于其他方法,表明結(jié)合預(yù)訓(xùn)練單模態(tài) LMs 進(jìn)行親和力預(yù)測的巨大潛力。

表:PRA310 和 PRA201 數(shù)據(jù)集上的 5 折交叉驗(yàn)證的平均指標(biāo)

隨后,研究人員使用其整理的無監(jiān)督數(shù)據(jù)集 PRI30k 對模型進(jìn)行了預(yù)訓(xùn)練,顯著提高了其在兩個數(shù)據(jù)集上的整體性能。在 PRA310 數(shù)據(jù)集上,CoPRA 的 RMSE 為 1.391,MAE 為 1.129,PCC 為 0.580,SCC 為 0.589,遠(yuǎn)優(yōu)于第二好的模型 CoPRA (從頭訓(xùn)練版本)。PredPRBA 和 DeepNAP 支持蛋白質(zhì)-RNA 對親和力預(yù)測,研究人員將這些方法在 PRA201 數(shù)據(jù)集上的表現(xiàn)進(jìn)行了比較,結(jié)果顯示,盡管 PRA201 中至少有 100 個樣本出現(xiàn)在它們的訓(xùn)練集中,但它們在 PRA201 上的性能明顯低于它們報告的結(jié)果,表明這些方法的泛化能力較差。

CoPRA 在預(yù)測突變對結(jié)合親和力影響方面更強(qiáng),且泛化能力極佳

為了進(jìn)一步評估模型對親和力的細(xì)粒度理解,研究人員將模型重定向?yàn)轭A(yù)測蛋白質(zhì)的單點(diǎn)突變對蛋白質(zhì)-RNA 復(fù)合物的影響。參考蛋白質(zhì)突變效應(yīng)預(yù)測的相關(guān)研究,研究人員在每個復(fù)合物級別上對指標(biāo)進(jìn)行平均,評估了 CoPRA 在 PRI30k 上進(jìn)行預(yù)訓(xùn)練并在 PRA310 上進(jìn)行調(diào)優(yōu)后的 zero-shot 性能和微調(diào)性能。

如下表所示,在使用 mCSM 的交叉驗(yàn)證集進(jìn)行微調(diào)后,本研究提出的模型在所有 4 個指標(biāo)上均超越了其他模型,RMSE 為 0.957,MAE 為 0.833,PCC 為 0.550,SCC 為 0.570。

表:在 mCSM 盲測集上的每個結(jié)構(gòu)的表現(xiàn)

盡管沒有看到任何突變復(fù)合物結(jié)構(gòu),但這種優(yōu)越的性能來源于雙重預(yù)訓(xùn)練目標(biāo),這一表現(xiàn)證明了 CoPRA 在不同親和力相關(guān)任務(wù)上的泛化能力。

多模態(tài)蛋白質(zhì)語言模型的突破性進(jìn)展

上文介紹的研究思路本質(zhì)是將蛋白質(zhì)、RNA 等多種生物模態(tài)與復(fù)雜結(jié)構(gòu)信息相結(jié)合,也就是所謂的多模態(tài)學(xué)習(xí) (MultiModal Learning)。簡單來講,多模態(tài)學(xué)習(xí)是在深度學(xué)習(xí)的框架下,將各種不同類型的數(shù)據(jù)整合在一個模型中進(jìn)行建模。

過去幾年,隨著大語言模型的快速發(fā)展,研究人員開始嘗試將其應(yīng)用于蛋白質(zhì)科學(xué)領(lǐng)域,以準(zhǔn)確理解和預(yù)測蛋白質(zhì)的功能、結(jié)構(gòu)和性質(zhì)。然而,此前的蛋白質(zhì)導(dǎo)向型大語言模型主要將氨基酸序列作為文本形式處理,未能充分利用蛋白質(zhì)的豐富結(jié)構(gòu)信息,如今,多模態(tài)學(xué)習(xí)的進(jìn)展則為越來越多的相關(guān)研究提供了新思路。

比如,在藥物研發(fā)領(lǐng)域,準(zhǔn)確有效地預(yù)測蛋白質(zhì)與配體的結(jié)合親和力對于藥物篩選和優(yōu)化至關(guān)重要。然而,此前的研究沒有考慮到分子表面信息在蛋白質(zhì)-配體相互作用中的重要作用?;诖?,來自廈門大學(xué)的研究人員提出了一種新穎的多模態(tài)特征提取 (MFE) 框架,該框架首次結(jié)合了蛋白質(zhì)表面、3D 結(jié)構(gòu)和序列的信息,并使用交叉注意機(jī)制進(jìn)行不同模態(tài)之間的特征對齊。實(shí)驗(yàn)結(jié)果表明,該方法在預(yù)測蛋白質(zhì)-配體結(jié)合親和力方面取得了最先進(jìn)的性能,相關(guān)研究以「Surface-based multimodal protein–ligand binding affinity prediction」為題,于 2024 年 6 月發(fā)布在 Bioinformatics 上。

2024 年 12 月,來自華東師范大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一個創(chuàng)新性的解決方案 EvoLLama,這是一個將蛋白質(zhì)結(jié)構(gòu)編碼器、序列編碼器和大語言模型進(jìn)行多模態(tài)融合的框架。在零樣本設(shè)置下,EvoLLama 展現(xiàn)出了強(qiáng)大的泛化能力,相比其他微調(diào)基線模型提升 1%-8% 的性能,超越當(dāng)前最先進(jìn)的監(jiān)督微調(diào)模型平均 6% 的性能。相關(guān)研究成果以「EvoLlama: Enhancing LLMs’ Understanding of Proteins via Multimodal Structure and Sequence Representations」為題已發(fā)布預(yù)印本于 arXiv。

當(dāng)然,多模態(tài)學(xué)習(xí)只是可供選擇的研究思路之一,未來,通過更多機(jī)器學(xué)習(xí)手段研究蛋白質(zhì)的表面,生物學(xué)家可以更深入地了解其如何與其他生物分子相互作用,從而為新藥研發(fā)提供助益。