大自然擅長(zhǎng)設(shè)計(jì)蛋白質(zhì)??茖W(xué)家甚至更擅長(zhǎng),人工智能(AI)有望幫助人類多次實(shí)現(xiàn)定向蛋白質(zhì)進(jìn)化。
來自哈佛醫(yī)學(xué)院、麻省理工學(xué)院等多家頂尖學(xué)術(shù)機(jī)構(gòu)聯(lián)合組成的研究團(tuán)隊(duì)在這一領(lǐng)域帶來了新的突破,他們開發(fā)了一個(gè)人工智能(AI)平臺(tái) EVOLVEpro,將蛋白質(zhì)設(shè)計(jì)精準(zhǔn)度推向新高度——
EVOLVEpro 平臺(tái)基于少樣本主動(dòng)學(xué)習(xí)框架,結(jié)合蛋白質(zhì)語言模型(PLMs)和回歸模型,無需依賴結(jié)構(gòu)信息、專家經(jīng)驗(yàn)或其他先驗(yàn)數(shù)據(jù),僅通過蛋白質(zhì)序列進(jìn)行高效優(yōu)化,實(shí)現(xiàn)了快速預(yù)測(cè)高活性蛋白突變體。
更重要的是,EVOLVEpro 在 RNA 生產(chǎn)、基因編輯及抗體結(jié)合等應(yīng)用中展示出了優(yōu)越的性能,能使所需特性提升 100 倍。研究結(jié)果顯示,平臺(tái)在癌細(xì)胞中大幅優(yōu)化了基因編輯工具的活性,同時(shí)也改良了抗體的結(jié)合能力和表達(dá)水平。
此外,針對(duì)新型脂質(zhì)納米顆粒(LNP)的優(yōu)化實(shí)驗(yàn)表明,EVOLVEpro 幾乎完全消除了基因編輯工具的脫靶效應(yīng),為精準(zhǔn)醫(yī)療的應(yīng)用提供了堅(jiān)實(shí)基礎(chǔ)。
相關(guān)研究論文以 “Rapid in silico directed evolution by a protein languagemodel with EVOLVEpro” 為題,已發(fā)表在權(quán)威科學(xué)期刊 Science 上。
這種創(chuàng)新方法為跨領(lǐng)域應(yīng)用提供了全新可能性,從抗體優(yōu)化到基因編輯工具改良,都展現(xiàn)出了優(yōu)異性能。
攻克蛋白質(zhì)優(yōu)化與基因編輯難題
在生物醫(yī)學(xué)領(lǐng)域,如何優(yōu)化蛋白質(zhì)以提高其特定活性始終是極具挑戰(zhàn)的任務(wù)。這種優(yōu)化對(duì)于抗體研發(fā)、基因編輯工具改良以及疫苗設(shè)計(jì)等領(lǐng)域至關(guān)重要。
然而,傳統(tǒng)技術(shù)如深度突變掃描(DMS)或定向進(jìn)化,往往需要大量實(shí)驗(yàn)驗(yàn)證,不僅耗時(shí)費(fèi)力,還容易陷入局部最優(yōu)解。
基因編輯技術(shù)也面臨類似難題。例如,CRISPR-Cas9 技術(shù)盡管顯著推動(dòng)了基因編輯的進(jìn)展,卻在精準(zhǔn)性和遞送效率上面臨瓶頸。一方面,脫靶效應(yīng)使得編輯可能產(chǎn)生非預(yù)期突變,帶來副作用風(fēng)險(xiǎn);另一方面,現(xiàn)有的 mRNA 遞送系統(tǒng)在目標(biāo)細(xì)胞中表現(xiàn)出較低的穩(wěn)定性,限制了基因治療的效果。
近年來,深度學(xué)習(xí)技術(shù)的發(fā)展為蛋白質(zhì)優(yōu)化領(lǐng)域注入了新動(dòng)能。蛋白質(zhì)語言模型通過大規(guī)模序列數(shù)據(jù)庫訓(xùn)練,能夠捕捉蛋白質(zhì)序列與其結(jié)構(gòu)和功能之間的復(fù)雜關(guān)系。
然而,這些模型在優(yōu)化蛋白質(zhì)活性時(shí)表現(xiàn)有限,在優(yōu)化蛋白質(zhì)活性時(shí),它們難以精準(zhǔn)捕捉復(fù)雜適應(yīng)度景觀,特別是在涉及蛋白質(zhì)非結(jié)合特征的任務(wù)中。
為突破這一困境,研究團(tuán)隊(duì)開發(fā)了 EVOLVEpro。該平臺(tái)結(jié)合深度學(xué)習(xí)與主動(dòng)學(xué)習(xí)策略,不僅降低了對(duì)實(shí)驗(yàn)數(shù)據(jù)的依賴,還通過智能選擇最優(yōu)突變體進(jìn)行實(shí)驗(yàn)驗(yàn)證,大幅減少了實(shí)驗(yàn)次數(shù)。
圖|開發(fā)用于蛋白質(zhì)語言模型引導(dǎo)工程的 EVOLVEpro 并進(jìn)行基準(zhǔn)測(cè)試
與傳統(tǒng)的定向進(jìn)化和現(xiàn)有 AI 方法相比,EVOLVEpro 顯現(xiàn)出三大優(yōu)勢(shì):
突破數(shù)據(jù)依賴:無需蛋白質(zhì)結(jié)構(gòu)信息、專家知識(shí)或復(fù)雜實(shí)驗(yàn)數(shù)據(jù),完全基于少量蛋白質(zhì)序列實(shí)現(xiàn)高效優(yōu)化。
高效主動(dòng)學(xué)習(xí):通過主動(dòng)學(xué)習(xí)框架,EVOLVEpro 能夠智能選擇最優(yōu)突變體進(jìn)行實(shí)驗(yàn)驗(yàn)證,大幅減少實(shí)驗(yàn)次數(shù)。
跨領(lǐng)域應(yīng)用潛力:在 mRNA 遞送、基因編輯工具改良等多個(gè)領(lǐng)域表現(xiàn)出卓越的性能。
研究團(tuán)隊(duì)通過 12 個(gè)深度突變掃描數(shù)據(jù)集,優(yōu)化了 EVOLVEpro 參數(shù),采用網(wǎng)格搜索選擇最佳蛋白質(zhì)語言模型(如 ESM2),并測(cè)試了不同回歸模型(如隨機(jī)森林、k 近鄰回歸器)對(duì)性能的影響。
全方位突破:從抗體優(yōu)化到基因編輯工具
為了驗(yàn)證 EVOLVEpro 的實(shí)際性能,研究團(tuán)隊(duì)以 C143 抗體和抗人轉(zhuǎn)鐵蛋白受體的 aCD71 抗體為目標(biāo),評(píng)估了它在抗體結(jié)合能力優(yōu)化中的表現(xiàn)。
研究結(jié)果顯示,經(jīng)過四輪優(yōu)化后,C143 抗體的最佳輕鏈突變體 N28R 顯著提升了結(jié)合親和力,其結(jié)合半數(shù)抑制濃度(IC50)降至 60 pM,多突變體結(jié)合親和力提高至野生型的 35 倍。
圖|利用 EVOLVEpro 對(duì)高活性微型 CRISPR 核酸酶進(jìn)行改造
在針對(duì) aCD71 抗體優(yōu)化實(shí)驗(yàn)中,則發(fā)現(xiàn)最佳重鏈突變體 S92A 結(jié)合 IC50 達(dá)到 29 pM,進(jìn)一步設(shè)計(jì)的多突變體結(jié)合 IC50 效率達(dá)到 19 pM,同時(shí)提升了抗體的表達(dá)水平和親和力。
而在與多種蛋白質(zhì)語言模型比較中,ESM-2 15B 參數(shù)模型作為 EVOLVEpro 的潛在空間模型,在多數(shù)數(shù)據(jù)集上表現(xiàn)優(yōu)于其他模型,返回的高活性突變體比例最高,且只有少數(shù)蛋白質(zhì)語言模型的預(yù)測(cè)準(zhǔn)確性明顯高于獨(dú)熱編碼,突出了基礎(chǔ)層模型對(duì) EVOLVEpro 性能的關(guān)鍵重要性。
在基因編輯工具方面,研究團(tuán)隊(duì)將目標(biāo)鎖定在微型 CRISPR 核酸酶 PsaCas12f 和 Bxb1 整合酶的活性改良上。通過四輪單突變體優(yōu)化,PsaCas12f 在多個(gè)靶點(diǎn)的插入缺失效率顯著提高。
圖|用 EVOLVEpro 對(duì) prime editor 進(jìn)行進(jìn)化
研究發(fā)現(xiàn),最佳變體 PsaCas12f K333V 在 RNF2 基因位點(diǎn)的插入缺失效率提高至 40%,進(jìn)一步組合的多突變體則將效率提升至約 50%。組合多突變體的平均編輯活性提高 2.2 至 44 倍,相較其他 Cas12f 效應(yīng)子表現(xiàn)優(yōu)異。
類似地,在 Bxb1 整合酶進(jìn)化實(shí)驗(yàn)中,經(jīng)過多輪進(jìn)化得到的突變體活性提升至野生型的 2.6 倍以上,在基因組中基因貨物的整合效率提高多達(dá) 4 倍,為基因組編輯和大基因貨物整合提供了更強(qiáng)的工具。
此外,針對(duì) mRNA 生產(chǎn)中的 T7 RNA 聚合酶,EVOLVEpro 通過多輪進(jìn)化顯著提升 T7 RNA 聚合酶性能。
在 T7 RNA 聚合酶進(jìn)化實(shí)驗(yàn)中,經(jīng)過四輪優(yōu)化,最佳突變體 E643G 產(chǎn)生的熒光素酶 mRNA 較野生型的翻譯效率提升 34 倍,免疫原性比野生型降低 98%。
在臨床相關(guān)的 IVT 環(huán)境下,與野生型和之前工程改造的突變體比較,優(yōu)化版 epT7 酶生產(chǎn)的 mRNA 在體外轉(zhuǎn)錄實(shí)驗(yàn)中,翻譯效率較野生型高 120 倍,免疫原性低 256 倍。
圖|為高產(chǎn)且低免疫原性的 mRNA 生產(chǎn)對(duì) RNA 聚合酶進(jìn)行工程改造
此外,研究人員還進(jìn)行了多維度性能驗(yàn)證與機(jī)制解析,不僅驗(yàn)證了 EVOLVEpro 的優(yōu)越性能,也揭示了突變提升活性的機(jī)制。
通過 AlphaFold3 對(duì)不同蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)以及對(duì)模型關(guān)注殘基的分析,研究團(tuán)隊(duì)發(fā)現(xiàn),PsaCas12f 中的 K333V 突變通過穩(wěn)定結(jié)構(gòu)和調(diào)節(jié)模板結(jié)合增強(qiáng)了活性,而 T7 RNA 聚合酶中的 E643G 突變則顯著減少了免疫反應(yīng)。
圖|epT7 在環(huán)狀 RNA 生產(chǎn)及體內(nèi)生物發(fā)光方面的應(yīng)用
不足與展望
盡管 EVOLVEpro 展現(xiàn)了極大的潛力,但研究團(tuán)隊(duì)也指出了一些存在的挑戰(zhàn)。
EVOLVEpro 在一定程度上克服了蛋白質(zhì)語言模型的一些問題,但蛋白質(zhì)語言模型固有的局限性依然存在影響。例如,蛋白質(zhì)語言模型是通過學(xué)習(xí)掩碼序列重建任務(wù)訓(xùn)練的,自然序列不一定選擇最優(yōu)蛋白質(zhì)活性,導(dǎo)致其學(xué)習(xí)的活性景觀與實(shí)際蛋白質(zhì)活性景觀常不相關(guān),即使增加蛋白質(zhì)語言模型的參數(shù)也未必能更好地預(yù)測(cè)蛋白質(zhì)活性及其他下游任務(wù)。
其次,在一些蛋白質(zhì)的研究中,如不同蛋白質(zhì)的適應(yīng)度與活性之間的關(guān)系雖然通過分析有了一定的了解,但整體上這種關(guān)系還不夠明確和穩(wěn)定,不同蛋白質(zhì)呈現(xiàn)出不同的相關(guān)性情況,給準(zhǔn)確預(yù)測(cè)和優(yōu)化帶來一定難度。
為此,研究團(tuán)隊(duì)計(jì)劃,隨著自回歸蛋白質(zhì)語言模型或下一代表示模型的出現(xiàn),將繼續(xù)改進(jìn) EVOLVEpro 模型,利用其模塊化設(shè)計(jì)將新的模型優(yōu)勢(shì)整合進(jìn)來,進(jìn)一步提高模型的性能和預(yù)測(cè)準(zhǔn)確性。
他們表示,將把 EVOLVEpro 應(yīng)用到更多類型的蛋白質(zhì)和生物醫(yī)學(xué)相關(guān)領(lǐng)域,進(jìn)一步探索其在不同蛋白質(zhì)特性優(yōu)化、不同應(yīng)用場(chǎng)景下的表現(xiàn),深入研究蛋白質(zhì)活性提升的各種機(jī)制以及不同突變之間的復(fù)雜相互作用,以更好地實(shí)現(xiàn)蛋白質(zhì)工程的目標(biāo),滿足生物醫(yī)學(xué)等領(lǐng)域?qū)Ω咝阅艿鞍踪|(zhì)的需求。
研究人員還將嘗試基于生物物理的模型與 EVOLVEpro 建立的回歸頂層方法相結(jié)合,進(jìn)一步提高預(yù)測(cè)準(zhǔn)確性,并實(shí)現(xiàn)對(duì)功能獲得性突變體的更快速準(zhǔn)確識(shí)別,從而更高效地優(yōu)化蛋白質(zhì)的各種特性。
EVOLVEpro 的問世為蛋白質(zhì)優(yōu)化與基因編輯工具的研發(fā)提供了全新視角。從抗體設(shè)計(jì)到精準(zhǔn)基因編輯,再到高效 mRNA 生產(chǎn),EVOLVEpro 通過 AI 驅(qū)動(dòng)的高效突變體篩選,正在重新定義生物醫(yī)學(xué)的研發(fā)效率與可能性。
隨著技術(shù)的持續(xù)迭代與優(yōu)化,未來生命科學(xué)或?qū)⒂瓉砀嗤黄菩园l(fā)現(xiàn),為癌癥治療、基因療法以及新藥研發(fā)提供新的可能。
作者:田小婷