版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

剛剛,中國高校最大云上科研智算平臺在復(fù)旦大學(xué)上線

桂粵科普
桂林理工大學(xué)教師,三年科普中國優(yōu)秀信息員、廣東科學(xué)傳播達(dá)人。
收藏

在數(shù)據(jù)和智能技術(shù)驅(qū)動(dòng)的“大科學(xué)時(shí)代”,高校需要什么樣的科研算力平臺?剛剛,復(fù)旦大學(xué)率先打了個(gè)樣。

6月27日,由復(fù)旦大學(xué)與阿里云等共同打造的云上科研智能計(jì)算平臺“CFFF”宣告正式上線。CFFF是“Computing for the Future at Fudan”的縮寫,劍指復(fù)旦大學(xué)未來科研算力池。

CFFF平臺正式上線

記者了解到,以復(fù)旦大學(xué)“博學(xué)而篤志,切問而近思”的校訓(xùn)為靈感來源,CFFF平臺由智能計(jì)算集群“切問一號”和高性能計(jì)算集群“近思一號”兩部分組成,以公共云模式提供超千塊卡并行智能計(jì)算,支持千億參數(shù)級的大模型訓(xùn)練,在國內(nèi)高校中尚屬首例,走在了斯坦福大學(xué)等國際知名高校的前面,也締造了中國高校最大的云上科研智算平臺。

“CFFF平臺是全國高校算力第一的異構(gòu)智算集群。”復(fù)旦大學(xué)校長、中國科學(xué)院院士金力在接受采訪時(shí)表示:“CFFF是為發(fā)現(xiàn)和解決復(fù)雜科學(xué)問題而建,是為科研服務(wù)的必要基礎(chǔ)設(shè)施?!?/p>

異地算力怎么用?云上傳、云上算

作為智超融合的第一高??蒲兴懔ζ脚_,CFFF既有面向多學(xué)科融合創(chuàng)新的AI for Science智能計(jì)算集群“切問一號”,又有面向高精尖研究的專用高性能計(jì)算集群“近思一號”。其中,“近思一號”部署在復(fù)旦大學(xué)校內(nèi),“切問一號”則托管在遠(yuǎn)在1500公里外的阿里云烏蘭察布數(shù)據(jù)中心。

兩大集群身處兩地,它們是怎樣協(xié)同響應(yīng)、互相支撐的?

“兩地之間建有一條百G通路的高速數(shù)據(jù)傳輸網(wǎng)絡(luò)?!睆?fù)旦大學(xué)“浩清教授”、人工智能創(chuàng)新與產(chǎn)業(yè)研究院院長漆遠(yuǎn)介紹說,基于百G高速數(shù)據(jù)傳輸網(wǎng)和阿里云領(lǐng)先的大規(guī)模異構(gòu)算力融合調(diào)度技術(shù)、分級存儲技術(shù)、AI與大數(shù)據(jù)一體化技術(shù),“近思一號”和1500公里外的“切問一號”被連成了一臺“超級計(jì)算機(jī)”。

這是一臺跑在云上的“超級計(jì)算機(jī)”。漆遠(yuǎn)介紹說,CFFF不僅算力規(guī)模大,“存力”規(guī)模也不小?!癈FFF擁有國內(nèi)高校最大規(guī)模的多級數(shù)據(jù)冷熱分層存儲集群,解決了海量科研數(shù)據(jù)無法長期備份的痛點(diǎn),并支持云上高速傳輸——以往PB級科研數(shù)據(jù)從復(fù)旦校內(nèi)傳到西部數(shù)據(jù)中心需要兩周,如今當(dāng)天就能完成,真正實(shí)現(xiàn)了‘東數(shù)西算’?!?/p>

阿里云烏蘭察布數(shù)據(jù)中心位于“東數(shù)西算”節(jié)點(diǎn)上,云上高速傳輸是“東數(shù)西算”架構(gòu)下題中之義,但實(shí)際落地卻有諸多困難,這也是為什么“東數(shù)西算”模式被認(rèn)為更適合處理對時(shí)效要求不高的冷數(shù)據(jù)。CFFF平臺卻做到了真正的“云上傳”。

同時(shí),阿里云烏蘭察布數(shù)據(jù)中心以公共云模式為復(fù)旦校內(nèi)多學(xué)院、多個(gè)科研項(xiàng)目提供智能計(jì)算服務(wù)的模式,也使得各項(xiàng)目得到的算力更低成本、更綠色、更具彈性。

阿里云烏蘭察布數(shù)據(jù)中心

算力足、傳得快、存得多,讓CFFF成為一臺真正意義上的科研“超級計(jì)算機(jī)”。漆遠(yuǎn)表示,在CFFF上,復(fù)旦四個(gè)校區(qū)的所有實(shí)驗(yàn)設(shè)備都能高速接入,并且做到異構(gòu)算力統(tǒng)一管理、計(jì)算任務(wù)統(tǒng)一調(diào)度,能滿足不同應(yīng)用場景下的科學(xué)智能研究與應(yīng)用需求。

而有賴于公共云模式,即便有科研項(xiàng)目需要GPU千卡并行、萬卡并行的智能算力,CFFF也能響應(yīng)需求,并且,通過IO優(yōu)化和通信性能優(yōu)化,千卡并行有效算力能達(dá)到 92%。要知道,傳統(tǒng)智算中心達(dá)到一定規(guī)模之后,增加算力資源反而會(huì)降低算力輸出的能力,千卡以上規(guī)模的算力輸出最低往往僅有40%左右。

發(fā)布活動(dòng)后,中國工程院院士、阿里云創(chuàng)始人王堅(jiān)在回答《中國科學(xué)報(bào)》提問中,對復(fù)旦大學(xué)率先以公共云部署未來科研算力平臺的理念很是贊賞。

“CFFF這個(gè)名字就反映了一種面向科研范式變革的前瞻理念,它的公共屬性會(huì)最大化支持更多科研人員試煉自己的科研思想?!蓖鯃?jiān)對記者表示,CFFF從“在復(fù)旦、向未來”的立意上就有強(qiáng)烈的開放、共享內(nèi)涵,這種大科學(xué)計(jì)算平臺的部署理念放之于國際上都是超前的。

他還談到,人工智能技術(shù)的爆發(fā)對智能計(jì)算提出了更高需求,“大科學(xué)時(shí)代”同樣也在提出類似命題。如何在這個(gè)時(shí)代支持交叉科學(xué)研究、支撐解決復(fù)雜科學(xué)問題,如何提高智能計(jì)算設(shè)施的利用率,“云上科研智算平臺”這個(gè)“好點(diǎn)子”作出了時(shí)代回應(yīng)。

王堅(jiān)在報(bào)告分享中談校企合作“可以創(chuàng)造出很多美妙的東西”

前瞻部署,異構(gòu)算力托舉科研范式變革

論及復(fù)旦大學(xué)為何要鼎力打造一個(gè)以大規(guī)模異構(gòu)算力為基礎(chǔ)的智能計(jì)算平臺,金力表示,這是復(fù)旦以前瞻目光為AI for Science引領(lǐng)的范式變革做前瞻部署。

當(dāng)今,在機(jī)器學(xué)習(xí)與超算越來越趨于融合的勢頭下,GPU+CPU結(jié)合的異構(gòu)計(jì)算架構(gòu)已成為新興的超算架構(gòu)。早在2020年,高性能計(jì)算應(yīng)用領(lǐng)域最高獎(jiǎng)項(xiàng)“戈登貝爾獎(jiǎng)”就授予了美國科研團(tuán)隊(duì)在由2.7萬塊GPU和2.7萬塊CPU為核心構(gòu)建的超算集群Summit上的分子動(dòng)力學(xué)研究。自此后,大量前沿科學(xué)攻關(guān)——包括蛋白質(zhì)計(jì)算、藥物篩選、自動(dòng)駕駛及車聯(lián)網(wǎng)、計(jì)算物理學(xué)、復(fù)雜系統(tǒng)科學(xué)、大氣海洋地球系統(tǒng)模擬、氣候變化綜合評估模型模擬、人工智能基礎(chǔ)大模型訓(xùn)練等等,都嚴(yán)重依賴高端GPU算力資源。

“每當(dāng)科研范式存在難以解釋的科學(xué)發(fā)現(xiàn)或者難以解決的問題逐漸積累到引發(fā)質(zhì)變時(shí),新的科研范式就會(huì)呼之欲出。”金力說:“大數(shù)據(jù)越來越大,需要求解的科學(xué)問題日益復(fù)雜,科學(xué)研究正在探索‘第五范式’:即在數(shù)據(jù)范式的基礎(chǔ)上,引入智能技術(shù),強(qiáng)調(diào)人的決策機(jī)制與數(shù)據(jù)分析的融合,將數(shù)據(jù)科學(xué)和計(jì)算智能有效結(jié)合起來?!?/p>

金力說,“第五范式”以數(shù)據(jù)驅(qū)動(dòng)和智能技術(shù)驅(qū)動(dòng)的內(nèi)在特征,對科研數(shù)據(jù)的歸集、治理和管理提出新的要求。因此,以大規(guī)模異構(gòu)算力為基礎(chǔ)的智能計(jì)算平臺將成為今后科研的重要支撐力量。

在這一背景下,復(fù)旦大學(xué)與阿里云等構(gòu)建CFFF平臺水到渠成。

復(fù)旦大學(xué)云上科研智算平臺CFFF平臺界面

搭臺唱戲。擁有了CFFF這個(gè)國內(nèi)高校第一的大規(guī)模異構(gòu)智算平臺,復(fù)旦大學(xué)將如何推動(dòng)“科研范式變革”?

金力表示,他們希望CFFF能夠?yàn)閺?fù)旦的基礎(chǔ)科學(xué)研究提供更強(qiáng)大更穩(wěn)定、更加靈活高效且低成本的算力支持,利用AI新技術(shù)解放科學(xué)生產(chǎn)力,加速發(fā)現(xiàn)新的科學(xué)原理和技術(shù)突破;另一方面,他希望基于CFFF平臺能夠建成一批具有世界級影響力的科學(xué)大模型,例如生命科學(xué)大模型、大氣科學(xué)大模型、材料科學(xué)大模型、集成電路大模型等等。

45億參數(shù)大模型一天訓(xùn)練完!不止如此……

目前,CFFF平臺上的第一個(gè)科研成果已經(jīng)誕生。

復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院研究員李昊團(tuán)隊(duì),近期發(fā)布了45億參數(shù)量的中短期天氣預(yù)報(bào)大模型“伏羲”。“伏羲”首次將基于AI的天氣預(yù)報(bào)時(shí)長提升到15天,且預(yù)測效果表現(xiàn)亮眼——在公開數(shù)據(jù)集上,“伏羲”的成績達(dá)到了長期在該領(lǐng)域領(lǐng)先的歐洲中期天氣預(yù)報(bào)中心的集合平均水平,同時(shí)將預(yù)測速度從原來的小時(shí)級縮短到了3秒內(nèi)。

這是CFFF平臺上孕育出的第一個(gè)大模型?!盎贑FFF平臺的千卡并行智能計(jì)算,我們45億參數(shù)的大模型只用一天就完成了訓(xùn)練,這在傳統(tǒng)的計(jì)算平臺是很難做到的?!崩铌徽f,訓(xùn)練該大模型對顯存、計(jì)算、傳輸帶寬等硬件都有著嚴(yán)苛的要求,而CFFF平臺圓滿完成了這一任務(wù)。

值得一提的是,CFFF上的云原生與低代碼工程化AI開發(fā)平臺,在降低AI與科研融合的門檻方面讓不少研究人員印象深刻。相關(guān)負(fù)責(zé)人透露,從開始建設(shè)的第一天起,CFFF平臺就收到了來自復(fù)旦大學(xué)不同院系的多種研究需求,涵蓋生命科學(xué)、大氣科學(xué)、材料科學(xué)領(lǐng)域,也包括金融系統(tǒng)分析等社會(huì)科學(xué)研究。

“CFFF平臺一上線,我們就擁有了一個(gè)‘大科學(xué)裝置’,讓做科研如虎添翼。”中國科學(xué)院院士、復(fù)旦大學(xué)化學(xué)系教授趙東元對CFFF平臺推進(jìn)AI for Science研究充滿期待。他結(jié)合自己在介孔材料領(lǐng)域多年的研究談到:“實(shí)驗(yàn)科學(xué)的數(shù)據(jù)非常多。如果可以用 CFFF通過文獻(xiàn)數(shù)據(jù)找到設(shè)計(jì)一種材料的最佳路線,將會(huì)節(jié)省很多時(shí)間,我們對物質(zhì)的研究也會(huì)更加深入?!?/p>

研究方向?yàn)槔碚撚?jì)算化學(xué)的復(fù)旦大學(xué)化學(xué)系教授劉智攀,曾在本科階段將計(jì)算機(jī)作為第二專業(yè)選修。有了CFFF平臺,他看到了科研上極大的便利和新的機(jī)會(huì)。

“當(dāng)把CPU和GPU連接起來以后,它就可以做超大的模型?!眲⒅桥收J(rèn)為,現(xiàn)在新的學(xué)術(shù)增長點(diǎn),很多都在交叉學(xué)科?!翱總鹘y(tǒng)方法很多時(shí)候是研究不徹底的,這個(gè)時(shí)候需要物理的方法、計(jì)算的方法去理解它。交叉學(xué)科的意義在于,通過一些專業(yè)手段和平臺,大大加速待研究問題的難度、深度和廣度,從而做出更好的科學(xué)發(fā)現(xiàn)?!?/p>

金力告訴記者,CFFF建成后,接下來的重要任務(wù)就是對全體師生用好CFFF的能力升級。目前,CFFF平臺的團(tuán)隊(duì)管理由復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院支撐保障。保障團(tuán)隊(duì)中,既有專門的技術(shù)運(yùn)營組負(fù)責(zé)平臺培訓(xùn)、計(jì)算資源管理和安全運(yùn)營;也有專門負(fù)責(zé)算力優(yōu)化、以及和基礎(chǔ)研究對接的團(tuán)隊(duì)。

“CFFF團(tuán)隊(duì)除了要做好技術(shù)支撐外,還要為不熟悉AI算法的研究團(tuán)隊(duì)提供架構(gòu)和代碼優(yōu)化服務(wù),協(xié)同提升科研效率。”金力說。

科學(xué)網(wǎng)

,贊540

編輯 | 趙路