日前,記者從之江實驗室獲悉,10月30日,之江實驗室聯(lián)合中國科學院國家天文臺共同打造的天文大語言模型AstroOne,在中國天文學會2024年學術年會上首次亮相,吸引了天文學界的廣泛關注。
據(jù)介紹,AstroOne擁有700億參數(shù)、320億tokens文本語料,經(jīng)過了1萬道天文學評測數(shù)據(jù)集的測評,是當前天文知識能力最強的大語言模型,作為天文學的“新質(zhì)生產(chǎn)力”,促進學科交叉、突破領域邊界,探索未知領域中的未知問題,加速天文發(fā)現(xiàn)。
AstroOne在中國天文學會2024年學術年會上亮相
AstroOne也能夠為天文研究提供強有力的輔助。除了快速閱讀和學習專業(yè)文獻外,它可以快速檢測研究中的潛在錯誤、數(shù)據(jù)異?;蜻壿嬅?,減少人為疏漏;能從海量文獻中提取和核對信息,輔助驗證假設和結(jié)果的可靠性。與此同時,AstroOne還能實現(xiàn)跨學科知識推理與整合,幫助天文科學家突破知識邊界、啟發(fā)創(chuàng)新靈感,生成富有想象力的研究假設。
國家天文臺臺長、黨委副書記劉繼峰介紹了研發(fā)AstroOne的重要背景。他表示:“傳統(tǒng)天文研究亟需人工智能技術賦能,以突破天文數(shù)據(jù)處理困境。天文學界常說‘以天之語,解物之道’,但‘天籟之聲’非常嘈雜,信息量巨大,處理每年產(chǎn)生的百PB量級天文數(shù)據(jù)是一個難題?!?/p>
“今天,計算、數(shù)據(jù)和模型三者規(guī)模的快速增長正在推動科學研究范式的變革。我們希望借助天文大模型AstroOne,幫助天文科學家和天文愛好者更好地解讀天文觀測數(shù)據(jù)、更高效地進行科學探索,做出有影響力的研究工作?!敝瓕嶒炇摇翱茖W基座模型”科研任務總體部技術總師薛貴榮介紹道。
國家天文臺和之江實驗室合作簽約
以開放創(chuàng)新推動科研范式變革智能時代,計算從輔助性的工具變成了重要的創(chuàng)新引擎,正在全面變革科技創(chuàng)新的模式,計算驅(qū)動的開放創(chuàng)新將實現(xiàn)平臺、數(shù)據(jù)、模型、知識的全面共享,為科技合作與發(fā)展注入新的動力。
在此背景下,之江實驗室積極踐行開放創(chuàng)新理念,全力推動與國家天文臺的戰(zhàn)略合作。今年5月起,實驗室和國家天文臺共同舉辦“天文大模型培訓班”(以下簡稱“天文班”),通過封閉式科研攻關實訓,培養(yǎng)“AI+天文”復合型人才,真正用人工智能技術賦能天文研究。國家天文臺和之江實驗室合作簽約天文大模型培訓班開班儀式在天文班,計算背景和天文背景的學員相互協(xié)作,從0到1,成功開發(fā)出天文大語言模型AstroOne。
天文大模型培訓班開班儀式
“我們的優(yōu)勢在于理論和觀測,有很多天文數(shù)據(jù),同時能夠為計算提供天文的想法和知識,但缺乏大模型方面的經(jīng)驗。雙方合作能夠取長補短,效率更高?!碧煳陌鄬W員、國家天文臺陳孝鈿博士說道。
“以大模型班為合作載體,我們通過三個月的通力合作成功完成了第一個天文大語言模型,為雙方共建人工智能賦能的天文研究生態(tài)打下了堅實的基礎。國臺和之江的戰(zhàn)略合作圖景日趨清晰,未來我們將以人工智能的天文應用為目標,助力我國在國際天文研究領域走在發(fā)展前沿?!眹姨煳呐_羅阿理教授說。
天文班的攻關成果不止AstroOne,雙方還合作打造了一個天文圖文模型和四個天文學專業(yè)領域模型——用于快速捕捉極端瞬變源的Falco、進行恒星普查的SpecClip、精確預測太陽活動的SolarGPT以及實時識別GRBs等高能瞬變源的GRBs X射線探測模型?!拔覀兪占?00萬組天文圖文對,并通過大模型技術生成了20萬組圖像問答對,構(gòu)建了目前規(guī)模最大的天文圖文數(shù)據(jù)集。”天文班學員、之江實驗室天文計算研究中心高級研究專員唐曉瑜介紹道。未來幾個月,這些模型將陸續(xù)發(fā)布,以滿足天文研究全鏈條需求。
“這只是一個起步,AI+天文還有很多事情要做。我們將持續(xù)深化合作,加強資源共享,推進學科交叉融合和科學數(shù)據(jù)開放共享,推動科研范式變革?!敝瓕嶒炇尹h委副書記趙新龍表示。當下,之江實驗室開放科學實踐正在持續(xù)深化,除了天文領域,實驗室正在打造一個為AI for Science提供算力、數(shù)據(jù)、模型、工具等資源和服務的公共平臺,未來可以為各個科學領域研究效率提升和成果產(chǎn)出提供有力支撐。
(本文圖片由之江實驗室提供)