版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

華科大/上海AI Lab/上海交大科研先鋒深度分享:最新成果,頂會投稿經(jīng)驗,跨學(xué)科合作挑戰(zhàn)……

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

人工智能融合了計算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)、認(rèn)知科學(xué)等多個學(xué)科,其發(fā)展高度依賴跨學(xué)科人才的培養(yǎng)。近年來,AI for Science 的崛起更是讓大家看到了人工智能與基礎(chǔ)學(xué)科深度融合的顛覆性潛力。現(xiàn)如今,許多杰出的學(xué)者正是憑借其多學(xué)科背景,推動科學(xué)研究邁向新的高度。例如:

*華中科技大學(xué)黃宏副教授的學(xué)術(shù)經(jīng)歷橫跨廣播電視工程、信息工程、計算機(jī)科學(xué),如今她專注于數(shù)據(jù)驅(qū)動的科學(xué)研究,包括數(shù)據(jù)挖掘、大數(shù)據(jù)分析、社交網(wǎng)絡(luò)分析等;

*上海人工智能實驗室 AI for Science 中心青年研究員周東展從物理學(xué)起步,轉(zhuǎn)向人工智能,現(xiàn)如今致力于 AI 在物質(zhì)科學(xué)中的應(yīng)用;

*上海交通大學(xué)自然科學(xué)研究院的助理研究員周冰心,本科主修金融,碩士攻讀數(shù)據(jù)分析,博士階段專注于機(jī)器學(xué)習(xí)、深度學(xué)習(xí),如今,她正在用深度學(xué)習(xí)解決生物領(lǐng)域的問題,如基于深度學(xué)習(xí)算法的蛋白質(zhì)設(shè)計和改造。

在第七期 Meet AI4S 直播中,HyperAI超神經(jīng)邀請到了黃宏副教授、周東展博士、周冰心博士,與 3 位學(xué)者共同探討 AI 在社會科學(xué)、物理化學(xué)、生命科學(xué)等領(lǐng)域的前沿發(fā)展,并分享了她們在選擇科研方向上的見解,以及對 AI 頂會的投稿經(jīng)驗。

HyperAI超神經(jīng)在不違原意的前提下,對 3 位老師的本次分享進(jìn)行了整理匯總。

黃宏:我們的研究應(yīng)該能真正解決實際問題

作為華中科技大學(xué)的副教授、博士生/碩士生導(dǎo)師,黃宏副教授在數(shù)據(jù)挖掘、大數(shù)據(jù)分析等領(lǐng)域深耕多年,并以第一/通訊作者身份在 TKDE、TKDD、WWW、IJCAI、WSDM 等國際頂級期刊和會議上發(fā)表多篇論文。然而,她的科研之路并非一帆風(fēng)順。

回憶起讀研時的挫敗經(jīng)歷,黃宏副教授表示,她曾有一篇論文修改了 28 次,當(dāng)改到第 25 次時,曾一度感到崩潰,后來,在朋友和導(dǎo)師的鼓勵下,她冷靜下來,重新審視論文,發(fā)現(xiàn)仍有許多細(xì)節(jié)需要完善,最終通過不斷調(diào)整和打磨,成功發(fā)表。

在黃宏副教授看來:「做科研的關(guān)鍵,是要看你文章的 idea 是否真正解決了某一方面的問題,是否提出了合理的研究動機(jī)」?;谶@一理念,她的研究主要側(cè)重在兩個方向:第一,在大數(shù)據(jù)分析、數(shù)據(jù)挖掘上進(jìn)行方法的創(chuàng)新;第二,基于數(shù)據(jù)驅(qū)動進(jìn)行應(yīng)用開發(fā),解決社會實際問題。

在方法創(chuàng)新領(lǐng)域,黃宏副教授團(tuán)隊主要集中于圖神經(jīng)網(wǎng)絡(luò)與復(fù)雜系統(tǒng)的建模。她認(rèn)為,在當(dāng)下的大數(shù)據(jù)時代,為了更有效地挖掘數(shù)據(jù)價值,可以采用圖結(jié)構(gòu)來表示周圍的事物,也就是將事物抽象建模為節(jié)點,并分析這些節(jié)點之間的關(guān)系,進(jìn)而構(gòu)建成圖結(jié)構(gòu)。

此外,她們團(tuán)隊也在做數(shù)據(jù)驅(qū)動的應(yīng)用開發(fā),比如社交網(wǎng)絡(luò)分析。2009-2012 年間,社交網(wǎng)絡(luò)發(fā)展正值高峰期,微博、Twitter 和 Facebook 等平臺逐漸興起,這也促使黃宏副教授團(tuán)隊利用這些平臺的數(shù)據(jù),分析網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展,開展用戶推薦、輿情分析等工作。

「在新冠疫情期間,我們通過分析國際新聞媒體對中國的評論,研究外網(wǎng)對中國的態(tài)度變化,為理解外部立場提供了數(shù)據(jù)支撐」,黃宏副教授表示。

另一個有意思的研究案例是分析個人的社會經(jīng)濟(jì)地位,將其用于城市規(guī)劃。「我們與電信部門合作獲取用戶的手機(jī)流量日志數(shù)據(jù),通過分析用戶的 GPS 定位,識別出用戶的活動區(qū)域,并結(jié)合這些地區(qū)的房價信息,推測該地區(qū)在城市中的層級」。舉個簡單的例子,如果一個人頻繁出現(xiàn)在金融區(qū),可能意味著其社會經(jīng)濟(jì)地位較高,而常出現(xiàn)在學(xué)?;蚪逃龣C(jī)構(gòu)附近,則其身份可能為學(xué)生或教育工作者?;诖?,研究人員可以綜合評估個人的社會經(jīng)濟(jì)地位,從而為城市規(guī)劃提供參考。

在工業(yè)智能化方面,黃宏副教授團(tuán)隊也在用人工智能技術(shù),對工業(yè)設(shè)備進(jìn)行故障自動識別與診斷,極大提高了設(shè)備維護(hù)的效率和準(zhǔn)確性。

黃宏副教授總結(jié):「你必須自己對你要做的研究感興趣」。在她看來,科研本質(zhì)上是一個枯燥且需要極大耐心的過程,但如果你真正對它感興趣,就有自驅(qū)力堅持下去,「這也是我在招收學(xué)生時最看重的品質(zhì)」。

周東展:讓 AI 像科學(xué)家一樣產(chǎn)生新的 idea

周東展博士也認(rèn)同黃宏副教授的觀點:「如果沒有興趣的話,確實很難做出比較好的工作」。在她看來,科研方向選擇的關(guān)鍵點不在于判斷該領(lǐng)域是否「卷」或者是「熱門」,熱門領(lǐng)域依舊可以做出行業(yè)典范成果,小眾賽道也能去發(fā)現(xiàn)一些新的問題,我們應(yīng)該突破舒適區(qū),避免同質(zhì)化研究,選擇做出一些比較 solid 的成果。

目前,周東展博士的研究方向是將大語言模型、多模態(tài)模型等 AI 技術(shù)應(yīng)用于物質(zhì)科學(xué)。主要成果如下圖所示:

去年 1 月,上海人工智能實驗室推出了化學(xué)領(lǐng)域的大語言模型「書生·鑒原」,探索通用大模型與專業(yè)領(lǐng)域結(jié)合的前沿課題?;瘜W(xué)語言模型在多項核心化學(xué)任務(wù)(分子和反應(yīng)相關(guān))上表現(xiàn)優(yōu)異,多項指標(biāo)超過 GPT-4??紤]到化學(xué)研究中外部知識的重要性,團(tuán)隊為語言模型加入檢索增強(qiáng)生成 (RAG) 機(jī)制,以減少模型幻覺問題。考慮到化學(xué)數(shù)據(jù)模態(tài)的多樣性,團(tuán)隊進(jìn)一步開發(fā)了多模態(tài)版本模型,該版本模型在分子識別和多模態(tài)化學(xué)推理等方面表現(xiàn)出色,多項指標(biāo)超過 GPT-4v??紤]到使用科學(xué)工具對于模型的重要性,團(tuán)隊開發(fā)了一個 Agent 工具包,集成超過 50 種化學(xué)工具,涵蓋搜索、計算、分子和反應(yīng)等,讓模型更高效地執(zhí)行相關(guān)任務(wù)。

在以上研究的基礎(chǔ)上,實驗室團(tuán)隊想要讓 AI 承擔(dān)更復(fù)雜的任務(wù),而不是僅僅讓大語言模型停留在問答層面,于是團(tuán)隊開始探討 AI 是否能像科學(xué)家一樣產(chǎn)生新的科研假設(shè)。

如上圖所示,就是讓 AI 在給定研究背景和問題的前提下,自動生成研究假設(shè)。例如,如果希望研究某種電池并尋找符合特定性質(zhì)的材料和組分,只需要通過解耦研究背景與靈感,并結(jié)合 MOOSE-CHEM 系統(tǒng)及其內(nèi)置的多智能體操作,就能夠生成高質(zhì)量的科學(xué)想法。

研究發(fā)現(xiàn),科學(xué)假設(shè)的提出是一個復(fù)雜的推理過程,難以通過單一步驟直接生成。因此,團(tuán)隊對這一過程進(jìn)行了拆解,通過迭代搜索靈感和假設(shè),并對生成的假設(shè)進(jìn)行進(jìn)一步檢索,確保最終形成的科學(xué)假設(shè)更加堅實且多樣化。

與此同時,團(tuán)隊還構(gòu)建了 Benchmark 評估生成的科學(xué)科學(xué)假設(shè),如下圖所示,研究發(fā)現(xiàn),性能更優(yōu)的模型具備更強(qiáng)的檢索能力。

此外,研究還證實,在電化學(xué)相關(guān)任務(wù)中,模型能夠生成具有可執(zhí)行性的科學(xué)假設(shè),而不僅是籠統(tǒng)的概念,比如,其科學(xué)假設(shè)包含材料的核心組成元素,如金屬釕、氮摻雜等。目前,實驗室團(tuán)隊已經(jīng)在與相關(guān)課題組合作,希望推動該系統(tǒng)的落地應(yīng)用,將其打造為一個真正的科研助手。

讓 AI 生成科研 idea,甚至推動科學(xué)創(chuàng)新,是實驗室團(tuán)隊正在努力的方向?;仡欁陨淼膶W(xué)術(shù)經(jīng)歷,周東展坦言,其科研態(tài)度深受物理學(xué)家吳健雄的影響——「研究結(jié)果的偏差可能源自一個極小的細(xì)節(jié)問題」。因此,她始終強(qiáng)調(diào),關(guān)注細(xì)節(jié)、深入推敲,是科研取得突破的關(guān)鍵。

周冰心:自研蛋白質(zhì)模型在全球權(quán)威榜單上排名第一

在每個人的成長軌跡里,在每個人的成長軌跡里,可能都會有一位在學(xué)習(xí)、事業(yè)、乃至人生規(guī)劃上產(chǎn)生潛移默化影響的「偶像」。談及自己的「科研愛豆」,周冰心博士介紹道,「我之所以選擇做科研,很大程度上是受到了我博導(dǎo)的影響」,在周冰心的印象中,她的博導(dǎo)是一個非常有責(zé)任感的人,認(rèn)真、耐心、平易近人、秒回學(xué)生信息,甚至?xí)鹱种鹁涞貛退拇a、一行行檢查公式推導(dǎo)?!肝蚁M椅磥砜梢韵裎业膶?dǎo)師一樣,把培養(yǎng)學(xué)生視為一件非常重要的事」。

在科研方向的選擇上面,周冰心認(rèn)為,沒有唯一的「正確道路」,關(guān)鍵在于找到最適合自己的路,并堅定地走下去?!高€是要看你更愿意做什么,以及你的風(fēng)險承受能力如何。只要自己開心,就沒必要因為內(nèi)卷或流行趨勢而盲目跟風(fēng)」。

關(guān)于團(tuán)隊近年來的一些研究,特別是 AI 在蛋白質(zhì)改造方面的探索,周冰心也在本次直播中進(jìn)行了分享。

在工業(yè)中,酶用于藥物開發(fā)、疾病監(jiān)測和塑料降解等。然而,天然蛋白質(zhì)來源于自然界,有其特定的生活環(huán)境(如高壓高溫),未必符合工業(yè)需求,因此需通過改造提升其催化活性、熱穩(wěn)定性、結(jié)合親和力和底物選擇性等。

近年來,人工智能輔助蛋白質(zhì)設(shè)計逐漸興起。如下圖所示,簡單來講,就是先讓自監(jiān)督模型學(xué)習(xí)大量蛋白質(zhì)數(shù)據(jù)(序列、結(jié)構(gòu)、進(jìn)化信息),再拿少量和下游任務(wù)相關(guān)(預(yù)測蛋白質(zhì)活性)的標(biāo)簽數(shù)據(jù)集去訓(xùn)練一個預(yù)測模型,根據(jù)具體需求(提升活性),對蛋白質(zhì)的結(jié)構(gòu)或序列進(jìn)行重新優(yōu)化或全新設(shè)計。

當(dāng)改造完一條蛋白質(zhì)序列后,可以將其轉(zhuǎn)染到大腸桿菌、酵母等表達(dá)體系中,讓生物學(xué)團(tuán)隊進(jìn)行表達(dá)和純化。純化后的蛋白質(zhì)會被用來測試其生物化學(xué)性質(zhì),如活性、穩(wěn)定性和結(jié)合親和力,這些特性取決于蛋白質(zhì)的具體用途。在這個過程中,算法也可以提供幫助,比如預(yù)測給定蛋白質(zhì)的表達(dá)性、溶解性和活性,最后只需要將算法推薦的蛋白質(zhì)序列用于實驗,就可以進(jìn)一步節(jié)省成本。

如下圖所示,周冰心團(tuán)隊的工作集中在蛋白質(zhì)工程的各個模塊上,包括但不限于從蛋白質(zhì)結(jié)構(gòu)推導(dǎo)序列、從功能推導(dǎo)序列等問題。「我們希望開發(fā)自己的工具,并探索如何將這些工具與后續(xù)的生物實驗結(jié)合,以形成一個完整的循環(huán),從而實現(xiàn)干實驗(計算模擬)與濕實驗(實際生物實驗)之間的迭代優(yōu)化」。

到目前為止,團(tuán)隊開發(fā)的工具在干、濕實驗中均取得了優(yōu)異成績。例如,在全球的權(quán)威榜單 ProteinGym 上,其模型分別占據(jù)了第一和第二的位置。

此外,團(tuán)隊開發(fā)的生長激素,實現(xiàn)了全球首個 AI 設(shè)計蛋白質(zhì)真正意義的放大生產(chǎn)(5,000 升)。他們還成功改造了 EPS-G7 酶,提高了其特異性和催化活性,并將生產(chǎn)成本降低 90%,打破了進(jìn)口壟斷限制。

除了單點或少數(shù)點位的改造,他們還整個生成了完整的蛋白質(zhì)序列。例如,改造用于核酸剪切的 Ago 系列蛋白(高溫存活),讓其在常溫下也能保持良好的活性,適用于核酸試劑盒中的剪切工作。



AI 從業(yè)者與 Science 從業(yè)者之間的最大問題是溝通

值得一提的是,由于周冰心博士所在領(lǐng)域具備高度交叉性,為了促進(jìn) AI 從業(yè)者與 Science 從業(yè)者的溝通交流,他們團(tuán)隊整理了大量數(shù)據(jù)、工具和下游任務(wù)檢測模塊,并將其整合成一個名為 VenusFactory 的工具庫。

在周冰心博士看來,溝通能力在 AI 與科學(xué)領(lǐng)域的合作中至關(guān)重要。「我剛開始涉足生物方向的交叉工作時,許多生物學(xué)的合作伙伴想要跟我們合作,但我聽不懂他們在說什么?,F(xiàn)在,我可以基于自己的理解,將他們提出的科學(xué)問題轉(zhuǎn)化為工程問題,尋找相應(yīng)的算法來解決」。

周東展博士也認(rèn)同這一觀點。她強(qiáng)調(diào):「與高校、研究所或企業(yè)合作時,確保雙方在同一層面上理解問題非常關(guān)鍵。我們需要讓科學(xué)領(lǐng)域的合作伙伴了解 AI 技術(shù)的現(xiàn)狀,同時也要讓技術(shù)團(tuán)隊明白最關(guān)鍵的問題是什么」。

黃宏副教授補(bǔ)充道,跨學(xué)科合作中掌握基礎(chǔ)知識非常重要。她回憶起自己與清華大學(xué)社會學(xué)系羅家德教授團(tuán)隊的合作。在初期,社會學(xué)團(tuán)隊提出研究問題,技術(shù)團(tuán)隊提供數(shù)據(jù)分析支持并負(fù)責(zé)實驗設(shè)計。隨著時間的推移,技術(shù)團(tuán)隊逐漸掌握了社會學(xué)的基本知識,開始獨立提出問題并與社會學(xué)團(tuán)隊討論,這種思想碰撞催生了多項研究成果。

值得一提的是,近期正值 ICLR 2025 等頂會公布結(jié)果,同時也有多個重要會議仍未截稿,我們也借此機(jī)會讓老師們分享了一下各自對 AI 頂會的投稿經(jīng)驗,如下所示:

1. 細(xì)讀 Call for papers,明確不同頂會錄取文章的要求,防止失去投稿機(jī)會。

2. 關(guān)注文章細(xì)節(jié)問題,格式正確、圖要清晰、排版要好看。

3. 明確投稿截止時間,所有的實驗至少提前一周全部完成保證論文的完整性,降低審稿人的質(zhì)疑空間。

4. 研究問題,文章 idea 是否真的解決了某一方面的問題;研究動機(jī)是否合理。

5. 論文寫作建議

* 論文提綱建議:第一,介紹背景。第二之前的研究是怎樣的、存在什么問題。第三,我們的工作是怎樣的,保證將你的 idea 傳輸給審稿人并讓他信服;

* 此外,保證文章的邏輯性,每一個 Research question 和后面的實驗驗證需要環(huán)環(huán)相扣,自圓其說。

6. 關(guān)于拒稿:拒稿很正常,審稿人的喜好五花八門,可以試試多投幾次。