人工智能,開始解決越來越多人類尚未解決的問題,且取得了不錯的成果。
然而,在過去幾年中,人工智能領域的科學研究數(shù)量呈指數(shù)級增長,使得科學家們和從業(yè)者們很難及時跟蹤這些進展。
數(shù)據(jù)顯示,機器學習領域的研究論文數(shù)量每 23 個月就會翻一番。其中一個原因是,人工智能正在數(shù)學、統(tǒng)計學、物理學、醫(yī)學和生物化學等不同學科中得到利用。
通過從科學文獻中獲得見解,提出新的個性化研究方向和想法的工具可以顯著加速科學的進步。在人工智能與其他各領域交叉的過程中,人們該如何判別哪些方向有意義并值得去做?
為此,由馬克斯·普朗克光科學研究所(MPL)人工智能科學家 Mario Krenn 領導的國際團隊發(fā)布了一項關于“指數(shù)級增長知識網(wǎng)絡中的高質量鏈接預測”的研究。相關研究論文以“Predicting the Future of AI with AI: High-Quality link prediction in an exponentially growing knowledge network”為題,發(fā)表在預印本網(wǎng)站 arXiv 上。
(來源:arXiv)
這項研究工作的目的是設計一個可以“閱讀、理解,然后行動”的人工智能相關文獻的程序,從而為預測和建議跨領域研究思路打開大門。研究團隊認為,從長遠來看,這將提高人工智能研究人員的生產(chǎn)力,開辟新的研究途徑,并指導該領域的進步。
以往的實踐證明,新的研究思路往往通過在看似不相關的主題/領域之間建立新的聯(lián)系而產(chǎn)生。
這促使研究團隊將人工智能文獻的演化制定為一個時間網(wǎng)絡建模任務,并創(chuàng)建了一個可以描述自 1994 年以來人工智能文獻內容和演變的語義網(wǎng)絡。
同時,研究團隊也探討了一個包含 64000 個概念(也稱為節(jié)點)和 1800 萬條節(jié)點間聯(lián)系的網(wǎng)絡,并使用語義網(wǎng)絡作為 10 種不同的統(tǒng)計和機器學習方法的輸入。
其中最基本的任務之一——構建語義網(wǎng)絡——有助于從網(wǎng)絡中提取知識,并隨后使用計算機算法進行處理。
圖|在此次工作中,研究團隊使用了 14.3 萬篇于 1992-2020 年發(fā)表在 arXiv 上的人工智能和機器學習類的論文,并使用 RAKE 和其他 NLP 工具構建了一個概念列表。這些概念構成了語義網(wǎng)絡的節(jié)點,當兩個概念同時出現(xiàn)在一篇論文的標題或摘要中時,就會畫出邊界(edge)。通過這種方式,他們構建了一個不斷發(fā)展的語義網(wǎng)絡,隨著時間的推移,更多的概念被一起研究。最終的任務是預測未連接的節(jié)點,即在科學文獻中沒有一起研究的概念,將在幾年內連接起來。(來源:arXiv)
起初,研究團隊考慮使用 GPT-3 和 PaLM 等大型語言模型來創(chuàng)建這樣的網(wǎng)絡。然而,主要的挑戰(zhàn)是,這些模型仍然難以推理,很難識別或提出新的概念組合。
于是,他們便轉向借鑒生物化學的方法,即從科學論文中共同出現(xiàn)的概念中創(chuàng)建知識網(wǎng)絡;單個生物分子代表一個節(jié)點,當一篇論文提到兩個對應的生物分子時,兩個節(jié)點就連接起來。這種方法是由芝加哥大學醫(yī)學教授和人類遺傳學教授 Andrey Rzhetsky 和他的團隊首先提出的。
研究團隊使用這種方法捕獲了人工智能領域的歷史,并使用超級計算機模擬提取了有關科學家集體行為的重要陳述,基于大量論文不斷重復這一過程,從而形成一個捕獲可操作內容的網(wǎng)絡。
基于此,研究團隊開發(fā)了一個名為 Science4Cast 的新基準測試,并提供了十種不同的方法來解決這一基準測試。研究團隊認為,他們的工作有助于構建一個能夠預測人工智能研究趨勢的新工具。
以往,每當打開任何人工智能和機器學習相關論壇時,人們都會發(fā)現(xiàn),“跟上人工智能的進步”是討論的首要話題。
或許,這一研究能夠為人們緩解一些這樣的壓力。
論文鏈接:
https://arxiv.org/pdf/2210.00881.pdf