“在我看來,《自然》雜志根本就不應(yīng)該發(fā)表谷歌的這篇論文,因為它違反了FAIR(Findable可發(fā)現(xiàn)、Accessible可訪問、Interoperable可互操作、Reusable可重用)的數(shù)據(jù)原則?!雀铔Q定不共享用于生成模型的數(shù)據(jù),甚至不共享模型結(jié)果本身。唯一共享的數(shù)據(jù)是模型最終識別出的穩(wěn)定晶體,這讓人難以復(fù)現(xiàn)模型?!艺J(rèn)為,像谷歌這樣的公司參與科學(xué)進(jìn)程固然重要,但也必須遵守同樣的嚴(yán)謹(jǐn)標(biāo)準(zhǔn)。無論從哪個標(biāo)準(zhǔn)來看,一項無法被驗證的工作都不能被視為科學(xué)?!?/p>
——Shyue Ping Ong(UCSD教授,Materials Project發(fā)起人)
撰文 | 劉淼、孟勝(中國科學(xué)院物理研究所/松山湖材料實驗室)
巨頭發(fā)力“AI+材料科學(xué)”
2023年11月底,Google旗下的DeepMind在Nature雜志發(fā)表了重磅論文,宣稱他們開發(fā)了用于材料科學(xué)的人工智能強(qiáng)化學(xué)習(xí)模型Graph Networks for Materials Exploration (GNoME),并通過該模型和高通量第一性原理計算,尋找到了38萬余個熱力學(xué)穩(wěn)定的晶體材料,相當(dāng)于“為人類增加了800年的智力積累”,極大加快了發(fā)現(xiàn)新材料的研究速度(圖1)。[1]
圖1. Google旗下的DeepMind在Nature雜志發(fā)布了GNoME數(shù)據(jù)集及模型。
2023年12月,距離Google的GNoME模型發(fā)表數(shù)天后,微軟發(fā)布了材料科學(xué)領(lǐng)域的人工智能生成模型MatterGen,可根據(jù)所需要的材料性質(zhì)按需預(yù)測新材料結(jié)構(gòu)。微軟總裁在社交媒體上為自家大模型站臺,評論道:“我們研發(fā)的MatterGen模型可以大幅提升新材料的按需研發(fā)效率”(圖2)。[2]
圖2. 微軟總裁評論自家人工智能材料生成模型
2024年1月,微軟與美國能源部下屬的西北太平洋國家實驗室(PNNL)合作,利用人工智能和高性能計算,從3200萬種無機(jī)材料中篩選出了一種全固態(tài)電解質(zhì)材料,完成了從預(yù)測到實驗的閉環(huán),該技術(shù)可助力下一代鋰離子電池材料研發(fā)(圖3)。[3]
圖3. 微軟的科學(xué)家從3200萬種無機(jī)材料中篩選出全固態(tài)電解質(zhì)材料,并實驗驗證。
材料科學(xué)無疑是一門重要科學(xué),也是近代工業(yè)飛速發(fā)展的支柱學(xué)科。從石器時代到青銅時代,再到鐵器時代,人類文明的各個演化階段都和材料緊密相關(guān)。陶瓷為華夏文明的繁榮立下了汗馬功勞;玻璃促成了光學(xué)器件的發(fā)明,為細(xì)胞生物學(xué)和天文學(xué)的進(jìn)步打下了伏筆??梢哉f,人類文明發(fā)展史正是一部材料科學(xué)的演化史。
近期,人工智能技術(shù)的進(jìn)步可謂是一日千里,卷到飛起。將人工智能方法引入科研已成為一個重要的交叉學(xué)科方向。除了Google和微軟,Meta和字節(jié)跳動也在近期布局了相似的研發(fā)方向。Meta AI與美國高校合作,開發(fā)了行業(yè)頂級的催化材料數(shù)據(jù)集Open Catalyst Project和有機(jī)金屬框架吸附數(shù)據(jù)集OpenDAC。一時間,科技巨頭憑借自家的技術(shù),將材料科學(xué)領(lǐng)域攪動到風(fēng)起云涌。無機(jī)材料科學(xué)成為了他們的新賽道。
GNoME材料科學(xué)數(shù)據(jù)集詳細(xì)解讀
人工智能是如何變革材料研發(fā)的?科技巨頭們看準(zhǔn)了相同的技術(shù)路線:(1)通過理論計算獲取材料科學(xué)數(shù)據(jù);(2)通過高通量計算生產(chǎn)海量此類數(shù)據(jù);(3)再將數(shù)據(jù)喂給人工智能模型;(4)借助模型推理未知材料的性能。這也意味著這是一種行之有效的技術(shù)方案,前景廣闊。
人工智能是否將變革未來材料科學(xué)的研發(fā)方式?答案是肯定的。數(shù)據(jù)、算法、算力也將成為促成這場變革的核心因素。在鋪天蓋地的新聞和宣傳中,讓我們以Google發(fā)布的數(shù)據(jù)集為切入點,對其詳細(xì)內(nèi)容和邏輯一探究竟。
1. 繼生物醫(yī)藥行業(yè)之后,材料科學(xué)是人工智能大舉進(jìn)入的下一個風(fēng)口。數(shù)年前AI攪動生物和制藥領(lǐng)域,美國的Schr?dinger公司、Atomwise公司等眾多企業(yè)的軟件和模型讓制藥行業(yè)看到了新機(jī)會,在原子尺度篩選目標(biāo)藥物分子成為了各大藥廠研發(fā)管線中的重要一環(huán)。
然而藥物研發(fā)周期長,研發(fā)成本高,審批環(huán)節(jié)嚴(yán)格,因此已有部分AI制藥公司轉(zhuǎn)戰(zhàn)材料科學(xué)。比如Schr?dinger公司成立了材料科學(xué)部門。本質(zhì)上,不論是生物醫(yī)藥還是物質(zhì)科學(xué),AI賦能背后的邏輯是一致的:通過人工智能方法,找到原子間相互作用的求解器和模擬器。
科技巨頭們意識到,材料科學(xué)和制藥有著相同的底層邏輯。萬事具備,只欠“數(shù)據(jù)”。數(shù)據(jù)是人工智能起飛的助推劑,數(shù)據(jù)集的大小和質(zhì)量高低直接決定了人工智能的預(yù)測本領(lǐng)。近期,得益于材料基因工程和若干材料科學(xué)數(shù)據(jù)庫的發(fā)展,該領(lǐng)域已具備優(yōu)質(zhì)的數(shù)據(jù)資源,人工智能崛起的前提條件已經(jīng)鋪墊好了。
2. 數(shù)據(jù)集是人工智能大廈的地基。人工智能領(lǐng)域?qū)?shù)據(jù)的依賴度極高,數(shù)據(jù)集的覆蓋度和質(zhì)量直接決定了人工智能模型的高度。數(shù)據(jù)集的覆蓋度決定了模型的泛化本領(lǐng),數(shù)據(jù)集的一致性和可比較性決定了模型的預(yù)測精度。在人工智能數(shù)據(jù)、算法、算力三大要素中,數(shù)據(jù)是最具技術(shù)壁壘的環(huán)節(jié)。例如:GPT 3.5、Llama 2等大語言模型,即使開源模型源代碼,也都選擇不公布其數(shù)據(jù)集,沒有優(yōu)秀的數(shù)據(jù)集作為支撐,行業(yè)中的競爭對手很難訓(xùn)練出優(yōu)秀的AI模型。
算法已經(jīng)逐漸失去了技術(shù)壁壘作用,憑借算法引領(lǐng)行業(yè)一枝獨秀的可能性微乎其微。
3. 理論計算為建立材料科學(xué)數(shù)據(jù)庫立下了汗馬功勞。密度泛函理論經(jīng)過數(shù)十年的發(fā)展,已積累了成熟的技術(shù)儲備,可以在短時間內(nèi)生產(chǎn)出高度標(biāo)準(zhǔn)化的數(shù)據(jù)集。密度泛函理論通過求解體系中的電子運動方程,可以高效求解出化合物的性質(zhì),從而建立化合物中原子空間分布與化合物物性的聯(lián)系。通過同時運行成百上千個計算作業(yè),人們便可以生產(chǎn)出海量的數(shù)據(jù)集,目前材料科學(xué)領(lǐng)域使用最廣泛的數(shù)據(jù)集,如Materials Project[4]、OQMD[5],都是基于密度泛函理論高通量計算獲得的。GNoME數(shù)據(jù)集意味著Google已經(jīng)掌握了材料科學(xué)的數(shù)據(jù)生產(chǎn)能力。
按照目前的材料科學(xué)研發(fā)技術(shù),單憑實驗數(shù)據(jù)積累,在數(shù)年內(nèi)都無法企及類似的數(shù)據(jù)覆蓋度和一致性。
4. Google的論文包含了GNoME模型代碼和數(shù)據(jù)集兩部分。數(shù)據(jù)集覆蓋度和精度非常高。GNoME數(shù)據(jù)集從Materials Project衍生獲得,采用了與Materials Project一致的計算標(biāo)準(zhǔn)和計算流程,因此可以和Materials Project[4]合并使用。Google稱其通過高通量計算和密度泛函理論生產(chǎn)了220萬種無機(jī)材料的計算數(shù)據(jù),計算的同時通過主動學(xué)習(xí)不斷預(yù)測熱力學(xué)穩(wěn)定的新材料,最終找到了38萬種穩(wěn)定的無機(jī)化合物,這無疑是對材料科學(xué)領(lǐng)域的巨大推動。
5. 雖然Google手握的GNoME數(shù)據(jù)集很大,涵蓋220萬種無機(jī)材料,但是隨論文公布的信息僅包含很小部分的數(shù)據(jù),即38萬種無機(jī)化合物的結(jié)構(gòu)、熱力學(xué)穩(wěn)定性及模型代碼。Google至今未公開模型參數(shù),因此第三方無法以開箱即用的方式運行模型的推理。Google也沒有發(fā)布足量的數(shù)據(jù),外界很難通過該數(shù)據(jù)集開展有效的模型訓(xùn)練。因此,Google是手握GNoME模型的獨占方。
在未來的AI大模型建立過程中,數(shù)據(jù)是護(hù)城河,Google不開源完整數(shù)據(jù),保證了其行業(yè)中不可被超越的領(lǐng)軍地位。即使Google公開了38萬個化合物的結(jié)構(gòu)及熱力學(xué)穩(wěn)定性,但是google并沒有公開很多關(guān)鍵信息,例如化合物的形成能(formation energy)。僅憑已公開的38萬個材料數(shù)據(jù),競爭對手也無法訓(xùn)練獲得有效的模型。
數(shù)據(jù)生成環(huán)節(jié)是最費時費力的環(huán)節(jié),但是目前行業(yè)里敢于迎難而上,通過各種方式生產(chǎn)標(biāo)準(zhǔn)化數(shù)據(jù)的機(jī)構(gòu)、組織和研究者非常有限。大多數(shù)人期待搭乘“順風(fēng)車”,大家對數(shù)據(jù)共享滿懷期待,卻試圖避開“數(shù)據(jù)生產(chǎn)難題”。
為了解決這個問題,行業(yè)中一種流行的觀念是數(shù)據(jù)匯交,把各種孤島數(shù)據(jù)“縫合”在一起,形成一個“大一統(tǒng)”的數(shù)據(jù)集。毫無疑問,這是一種寄希望于整合他人數(shù)據(jù)的方式,數(shù)年前就被推崇,但是目前尚未見到成功案例。例如,科技部的部分專項就有類似的數(shù)據(jù)匯交機(jī)制。
無疑科技巨頭是清醒的,他們很清楚必須迎難而上,自己生產(chǎn)數(shù)據(jù)。他們大概率也沒有意愿完整、大方地公開這些寶貴的數(shù)據(jù)集。這也是合情合理的,因為這些數(shù)據(jù)也許蘊(yùn)含著巨大的商業(yè)價值。換個角度講,開源、數(shù)據(jù)匯交的長期社會效益未必都是正向的。
6. 無機(jī)材料的相空間巨大,人類只發(fā)現(xiàn)了一小部分。本文作者詳細(xì)分析了論文中38萬種化合物的結(jié)構(gòu)信息,發(fā)現(xiàn)其中30345種材料的元素組合(例:“Zr-Ti-Se”、“Ni-Te”)可以從Materials Project中找到,占比7.8%。這意味著在人類熟知的化學(xué)空間中,Google找到了30345個熱力學(xué)穩(wěn)定的材料。而大部分(92.2%)的穩(wěn)定材料來自人類尚未涉足的元素組合(例如:“Rh-Ac”、“Zn-Cs”)。這意味著在未知的化學(xué)空間中,尚有很多未被發(fā)現(xiàn)的穩(wěn)定化合物,人類已知的材料也許只是冰山一角。但是對于人類未涉足的化學(xué)空間,其中大部分化合物含有低豐度元素,此類材料的應(yīng)用價值也是存疑的。(圖4)
圖4. Google的GNoME數(shù)據(jù)集詳細(xì)分析。GNoME數(shù)據(jù)集宣稱找到了384781種熱力學(xué)穩(wěn)定的無機(jī)材料??梢钥吹竭@些化合物中,三元、四元、五元化合物是主力。大部分化合物來自人類很少涉足的元素組合,且大部分是金屬化合物。
7. GNoME模型在更廣闊的化學(xué)空間中采樣。該數(shù)據(jù)集覆蓋了更廣闊的結(jié)構(gòu)空間和化學(xué)空間,因此是一個更加“廣譜”的數(shù)據(jù)集,這對開發(fā)的AI模型非常有益。AI建模過程的本質(zhì)是一種“求平均”,用行業(yè)術(shù)語表述,就是AI更善于求數(shù)據(jù)間的內(nèi)插,而不是外推。
大家在衡量一個AI模型的好與壞時,通常的指標(biāo)是預(yù)測精度,但是往往不談模型的泛化本領(lǐng)。當(dāng)然泛化本領(lǐng)的好壞也很難量化標(biāo)定。提高泛化本領(lǐng),需要更大、更廣泛采樣的數(shù)據(jù)集。
相較行業(yè)中通常以Materials Project數(shù)據(jù)為基礎(chǔ)開發(fā)的AI模型(如CHGNET[6]、m3gnet[7]),GNoME模型擁有更“高一級”的數(shù)據(jù)集基礎(chǔ),必然具有得天獨厚的泛化本領(lǐng)。
8. GNoME數(shù)據(jù)集是“嚴(yán)重偏科”的,金屬材料占比60%以上。合金材料存在很多未知穩(wěn)定結(jié)構(gòu)是很正常的結(jié)果。因為金屬原子之間容易結(jié)合形成金屬鍵,進(jìn)而降低體系能量,這是很常見的現(xiàn)象。然后這些金屬元素在真實材料中大概率形成原子隨機(jī)分布的合金相,而非GNoME數(shù)據(jù)集中的金屬間化合物(intermetallic),因此大概率無法被合成。(圖4&圖5)
實際情況中,隨便找?guī)讉€金屬元素混合,大概率都可以形成熱力學(xué)穩(wěn)定的合金,但這就算是發(fā)現(xiàn)新材料嗎?如果算,從事合金研究的小伙伴們每天都在發(fā)現(xiàn)成千上萬的新材料。
但對于人工智能模型訓(xùn)練,這些數(shù)據(jù)還是有重大意義的。
(a) GNoME
(b) Materials Project
圖5. GNoME數(shù)據(jù)集和Materials Project中元素出現(xiàn)概率的統(tǒng)計。GNoME數(shù)據(jù)主要探索低豐度元素,是人類較少涉足的化學(xué)空間。Materials Project探索的材料體系是較常見化學(xué)空間。
9. GNoME數(shù)據(jù)集中元素出現(xiàn)次數(shù)統(tǒng)計和Materials Project的統(tǒng)計結(jié)果非常不同。GNoME數(shù)據(jù)集中離子化合物的數(shù)量少,而金屬元素,特別是低豐度元素出現(xiàn)的概率較大。如Ho、Tb、Rh、Er等出現(xiàn)的次數(shù)很多,而常見元素,如O、P、S出現(xiàn)的概率較小。這更加說明了,GNoME的采樣空間是有偏頗的。(圖5)
比~2.8%。占比低代表化合物極有可能是一個摻雜化合物而非全新的穩(wěn)定化合物??梢钥吹紾NoME數(shù)據(jù)集中有很多疑似“摻雜化合物”,而非純相,這一點在二元化合物中極為突出。
10. GNoME數(shù)據(jù)集中,除了多元金屬間化合物占比大,摻雜結(jié)構(gòu)的占比也很大,而此類結(jié)構(gòu)也是比較難精確合成的。圖6中可以看到化合物中占比最少元素的比例??梢钥闯鲆恍崃W(xué)
元、四元化合物中占比有所減少。(圖6)
11. 所有視覺和語言模型中的先進(jìn)算法,都將在物質(zhì)科學(xué)中擁有用武之地。強(qiáng)化學(xué)習(xí)、注意力機(jī)制、擴(kuò)散模型、預(yù)訓(xùn)練模型、多模態(tài)技術(shù)、生成算法、模型對齊機(jī)制、向量數(shù)據(jù)庫等,遲早都將被不斷引入材料科學(xué)中,并產(chǎn)生相應(yīng)的工具。
未來任重道遠(yuǎn),但充滿希望
Google的GNoME數(shù)據(jù)集是“AI+材料科學(xué)”變革時代過程中的一?;鸹?。雖然數(shù)據(jù)集的許多具體細(xì)節(jié)仍沒有發(fā)布,但無疑可以表明在尚未被人類涉足的化學(xué)空間中,仍有很多未知新材料等待人類去探索。數(shù)據(jù)集的發(fā)布在領(lǐng)域內(nèi)開啟了很多可能性。全球的研究人員將有機(jī)會進(jìn)一步探索這些材料,可能應(yīng)用這些數(shù)據(jù)創(chuàng)造出更多的人工智能應(yīng)用、發(fā)現(xiàn)更多新材料。它不僅僅是一個數(shù)據(jù)集,它更是一張展示著可以重塑世界的無數(shù)創(chuàng)新的路線圖。
在“AI+材料科學(xué)”的大潮中,數(shù)據(jù)是重中之重。生產(chǎn)數(shù)據(jù)集,特別是具有行業(yè)支撐作用的數(shù)據(jù)集,也許是一件“出力不討好”的工作,但卻是一場無法規(guī)避的“硬仗”。
注:本文精簡形式的英文版已于2024年2月28日發(fā)表于Materials Futures。
DOI:10.1088/2752-5724/ad2e0c
URL:https://iopscience.iop.org/article/10.1088/2752-5724/ad2e0c
參考文獻(xiàn)
[1] A. Merchant, S. Batzner, S. S. Schoenholz, M. Aykol, G. Cheon, and E. D. Cubuk, “Scaling deep learning for materials discovery,” Nature, vol. 624, no. 7990, pp. 80–85, Dec. 2023, doi: 10.1038/s41586-023-06735-9.
[2] C. Zeni et al., “MatterGen: a generative model for inorganic materials design,” Dec. 2023, doi: 10.48550/arXiv.2312.03687.
[3] C. Chen et al., “Accelerating computational materials discovery with artificial intelligence and cloud high-performance computing: from large-scale screening to experimental validation,” Jan. 2024, [Online]. Available: http://arxiv.org/abs/2401.04070
[4] A. Jain et al., “Commentary: The materials project: A materials genome approach to accelerating materials innovation,” APL Materials, vol. 1, no. 1. American Institute of Physics Inc., 2013. doi: 10.1063/1.4812323.
[5] J. E. Saal, S. Kirklin, M. Aykol, B. Meredig, and C. Wolverton, “Materials design and discovery with high-throughput density functional theory: The open quantum materials database (OQMD),” JOM, vol. 65, no. 11, pp. 1501–1509, Nov. 2013, doi: 10.1007/s11837-013-0755-4.
[6] B. Deng et al., “CHGNet as a pretrained universal neural network potential for charge-informed atomistic modelling,” Nat Mach Intell, vol. 5, no. 9, pp. 1031–1041, Sep. 2023, doi: 10.1038/s42256-023-00716-3.
[7] C. Chen and S. P. Ong, “A universal graph deep learning interatomic potential for the periodic table,” Nat Comput Sci, vol. 2, no. 11, pp. 718–728, Nov. 2022, doi: 10.1038/s43588-022-00349-3.
本文受科普中國·星空計劃項目扶持
出品:中國科協(xié)科普部
監(jiān)制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司
特 別 提 示
1. 進(jìn)入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號,回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權(quán)說明:歡迎個人轉(zhuǎn)發(fā),任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請在「返樸」微信公眾號內(nèi)聯(lián)系后臺。