“我們建設(shè)的各種算力基礎(chǔ)設(shè)施,構(gòu)建的龐大算力,不能僅僅供給AI企業(yè),更應(yīng)擴展視野,服務(wù)于千行百業(yè)?!苯?,由北京市科協(xié)、北京科技記協(xié)組織的“首都科技人”宣傳活動中天云數(shù)據(jù)CEO、第九屆吳文俊人工智能科學技術(shù)發(fā)明獎獲得者雷濤如此闡述自己對人工智能所需算力的理解。
雷濤是中國第一代Java開發(fā)者之一,20世紀90年代參與制定了存儲行業(yè)國際標準,2000年,他推動云計算落地,后又帶領(lǐng)團隊一直深耕數(shù)據(jù)智能賽道。
堅持“做原創(chuàng)”,開發(fā)國產(chǎn)自研數(shù)據(jù)庫
作為IT行業(yè)知名數(shù)據(jù)專家、首批中國計算機學會(CCF)大數(shù)據(jù)專委會委員,雷濤對于數(shù)據(jù)的價值有著獨到的認識。他認為,“數(shù)字經(jīng)濟時代,我們要給數(shù)據(jù)賦能,讓數(shù)據(jù)服務(wù)大眾。如何做到這一點?首先需要新一代的基礎(chǔ)設(shè)施,而數(shù)智技術(shù)搭建的正是這樣一種大平臺?!?/p>
而他自己,就是一個數(shù)據(jù)基礎(chǔ)設(shè)施的搭建者。2010 年,當分布式數(shù)據(jù)和機器學習(AI)的曙光初現(xiàn)時,雷濤憑借敏銳的洞察力,毅然投身到這一領(lǐng)域,帶領(lǐng)團隊研發(fā)國產(chǎn)自研數(shù)據(jù)庫。
其實做一個數(shù)據(jù)庫工程并不難,把應(yīng)用場景打磨好,一兩年時間就可以實現(xiàn)快速盈利,但雷濤果斷選擇了“做原創(chuàng)”。
“做原創(chuàng)產(chǎn)品,才是下一代產(chǎn)品的核心命脈,工程只是在上一代產(chǎn)品上做延續(xù)性創(chuàng)新,無法支撐基礎(chǔ)設(shè)施?!崩诐褞缀跞康馁Y金都用在了研發(fā)上,可最初推向市場的時候,卻經(jīng)常被客戶質(zhì)疑。
但這所有的難,并沒有讓雷濤打退堂鼓,他最終開發(fā)出一套基于Go語言純自研的HTAP數(shù)據(jù)庫產(chǎn)品Hubble。這套數(shù)據(jù)庫通過中國軟件測評中心的源代碼測試,系統(tǒng)自主研發(fā)率達到99.62%,完全符合國家信創(chuàng)戰(zhàn)略,解決了基礎(chǔ)設(shè)施“卡脖子”的難題。
有了自研的數(shù)據(jù)庫,就有了未來面對國際巨頭能夠立足的底氣與根本。雷濤說,現(xiàn)在機器傳感物聯(lián)網(wǎng)的數(shù)據(jù)時代已經(jīng)到來,大量的數(shù)據(jù)通過設(shè)備或者產(chǎn)業(yè)服務(wù)產(chǎn)生出來,“而在我們搭建的基礎(chǔ)設(shè)施之下,能誕生更多類似ChatGPT的智能應(yīng)用。我們只要把數(shù)字基建搭好,把平臺不斷完善,數(shù)據(jù)就能真正服務(wù)每一個人?!?/p>
近年來,人工智能的快速發(fā)展深刻地改變著各個行業(yè)的格局。2019年,資本市場劇烈震蕩,傘形信托引發(fā)的配資亂象讓傳統(tǒng)規(guī)則監(jiān)管束手無策。雷濤帶領(lǐng)的天云數(shù)據(jù)團隊另辟蹊徑,將600萬正常賬戶數(shù)據(jù)與2000多個問題賬戶“喂”給深度學習模型,讓人工智能自主發(fā)現(xiàn)人類難以察覺的異常模式。
“就像訓練警犬識別新型毒品,我們不需要告訴它化學成分,只需讓它記住氣味。”雷濤說,這套系統(tǒng)將監(jiān)管效率提升數(shù)個量級,成為“證監(jiān)會版”監(jiān)管沙盒項目之一。
他拿出手機展示團隊研發(fā)的工業(yè)檢測系統(tǒng),AI通過3D點云數(shù)據(jù),能像資深技工般“摸”出精密零件的微米級瑕疵?!罢Z言大模型是二維革命,視覺大模型是2.5維突破,空間計算將開啟三維智能時代?!彼f。
在雷濤和團隊的努力之下,現(xiàn)在的天云數(shù)據(jù),能同時提供國產(chǎn)HTAP數(shù)據(jù)庫Hubble與AI平臺型基礎(chǔ)設(shè)施,并被評為國家級高新技術(shù)企業(yè),首批中關(guān)村前沿科技企業(yè),以及Forrester人工智能認知層第一象限公司。
算力基礎(chǔ)設(shè)施應(yīng)服務(wù)于千行百業(yè)
人工智能有三大核心要素,即所謂算力、算法、數(shù)據(jù),其中算力可以說是其中的基礎(chǔ)。什么是算力?通俗地說,就是計算能力,代表數(shù)據(jù)中心的服務(wù)器對數(shù)據(jù)進行處理后實現(xiàn)結(jié)果輸出的一種能力。
人們常說,人工智能的盡頭是算力,而算力的盡頭是電力。數(shù)據(jù)顯示,2023年我國算力中心能耗總量為1500億千瓦時,同比增長15.4%,約占全社會用電量的1.6%。可見算力增長也會大幅增加對電力的消耗。雷濤表示,現(xiàn)在已有越來越多的國內(nèi)外AI巨頭積極與能源電力企業(yè)合作,有的甚至直接生產(chǎn)電力,以滿足算力快速增長對于電力的龐大需求。
在我國,很多地方正大力建設(shè)算力基礎(chǔ)設(shè)施,投資不菲。雷濤認為,大家順應(yīng)AI時代潮流進行這些建設(shè)本來是件好事,但也要考慮實際情況,因地制宜,不要搞重復建設(shè),更不能有投機的想法?!耙?guī)劃建設(shè)過程中要看清AI的發(fā)展趨勢,緊跟技術(shù)前沿,不要再做一些已經(jīng)明顯落伍的東西,所謂一步落后,步步落后!”他說。
雷濤還表示,建好的算力基礎(chǔ)設(shè)施要如何發(fā)揮作用很關(guān)鍵,不能僅僅滿足AI企業(yè)需要,更要關(guān)注MaSS市場(大眾市場),要讓算力像互聯(lián)網(wǎng)或者水、空氣一樣,成為一種基礎(chǔ)的東西,服務(wù)于千行百業(yè)。
“現(xiàn)在我們很多的算力中心應(yīng)用場景、客戶群體等都較為單一,遠不能發(fā)揮其全部作用?!崩诐f,“現(xiàn)在已是AI+的時代,AI本身正在與千行百業(yè)相結(jié)合,已漸漸成為一種基礎(chǔ)性工具,國家建設(shè)的算力基礎(chǔ)設(shè)施,也應(yīng)該把重點放在服務(wù)各行各業(yè)上?!?/p>
未來AI將自己生產(chǎn)訓練所需的數(shù)據(jù)
春節(jié)期間,國產(chǎn)大模型DeepSeek-R1橫空出世,證明了用更低的成本、更少的算力需求,就可以實現(xiàn)世界一流的模型性能水平。據(jù)測算,DeepSeek-R1模型僅花費約600萬美元就完成了訓練,約為美國和歐盟同類大語言模型成本的1/50.在某些方面,該模型比OpenAI的o1模型要好得多。更重要的是,R1的運營成本僅為OpenAI通常對計算密集型輸出收取的費用的3%。
雷濤認為,DeepSeek實現(xiàn)了大模型的祛魅,開啟了中美后訓練時代的大門,曾經(jīng)被廣泛依賴的技術(shù)大模型預(yù)訓練模式,如今已不再是唯一的 “金科玉律”。相比算力過剩的問題,我們更應(yīng)該關(guān)注的是算力和效率都滿足的情況下有沒有可以用來訓練的優(yōu)質(zhì)數(shù)據(jù)。
實際上,數(shù)據(jù)是大模型的核心競爭力,高質(zhì)量的數(shù)據(jù)資源會成為核心生產(chǎn)力,AI模型生產(chǎn)的內(nèi)容高度依賴源頭數(shù)據(jù)。有研究機構(gòu)估計,機器學習可能會在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。
雷濤表示,今天的數(shù)據(jù)并不能滿足明天的AI使用,明天的AI要自己生產(chǎn)數(shù)據(jù)資源。數(shù)據(jù)質(zhì)量的高低并非由主觀認知簡單判定,而是取決于所采用的AI算法。如今已有大量數(shù)據(jù)由AI生成,但這并不意味著這些數(shù)據(jù)就是 “假數(shù)據(jù)”。
“所謂高質(zhì)量與低質(zhì)量數(shù)據(jù),其評價標準與方式,歸根結(jié)底在于AI算法?!?雷濤進一步闡釋,“這就是當下熱議的數(shù)據(jù)飛輪概念。AI模型使用的數(shù)據(jù)由其自身生成,數(shù)據(jù)飛輪正是構(gòu)建模型持續(xù)迭代生長的關(guān)鍵方法?!?/p>
很多人說AI自我生成的合成數(shù)據(jù)是虛擬的、空數(shù)據(jù)或者說是造出來的數(shù)據(jù)。不過雷濤認為,合成數(shù)據(jù)是已知的數(shù)據(jù)通過確定的邏輯生產(chǎn)出來的數(shù)據(jù),這些結(jié)果數(shù)據(jù)服務(wù)于真實的生產(chǎn)過程。
他還舉了個例子,“百模大戰(zhàn)”過后,為什么英偉達發(fā)布的大模型還可以擠到第一陣營?英偉達模型訓練使用了98%的合成數(shù)據(jù)。無獨有偶,特斯拉也是用合成數(shù)據(jù)獲得具身機器人的智能。
合成數(shù)據(jù)可降低對真實數(shù)據(jù)的依賴
雷濤認為,硬件的增長遵循摩爾定律,而數(shù)據(jù)的增長則呈現(xiàn)指數(shù)型態(tài)勢。我們?nèi)缃袼幍臅r代,已然是機器生產(chǎn)數(shù)據(jù)的時代,合成數(shù)據(jù)則是未來算力的主要解決方案。
合成數(shù)據(jù)究竟又是如何生成的呢?雷濤打了個比方,往一瓶水中滴一滴墨水,墨水會從相對簡單的狀態(tài)逐漸擴散,變得復雜、分散。通過逆擴散算法識別墨水擴散規(guī)律,就能模擬出不同的墨水擴散場景。合成數(shù)據(jù)也是利用類似原理,抓住核心規(guī)律,從簡單數(shù)據(jù)出發(fā),模擬數(shù)據(jù)的復雜變化過程,創(chuàng)造出豐富多樣的數(shù)據(jù)。
“人類的抽象邏輯留給我們的數(shù)據(jù)資產(chǎn)有限,都是信息化進程中沉淀下來的結(jié)構(gòu)化概要信息。而要把這些概要信息轉(zhuǎn)變?yōu)槟苡糜诶斫夂吞幚韽碗s世界中復雜系統(tǒng)的內(nèi)容,就需要大量合成數(shù)據(jù)?!彼f。
另外,在某些特定領(lǐng)域或場景下,獲取真實數(shù)據(jù)存在困難。以自動駕駛領(lǐng)域為例,其需要百萬級別的路況數(shù)據(jù),涵蓋模擬極端災(zāi)難天氣、極端惡性交通事故(如波音747在高速公路上迎面迫降)、復雜路況(如路面破損、立交橋斷橋)等情況的數(shù)據(jù)。這些數(shù)據(jù)難以從現(xiàn)實世界獲取,而合成數(shù)據(jù)可按需生成,填補數(shù)據(jù)缺口,降低對有限真實數(shù)據(jù)的依賴。
后訓練推動AI從“發(fā)動機時代”走向“造車時代”
雷濤表示,當前,大模型的預(yù)訓練時代已經(jīng)結(jié)束,后訓練時代正式開啟。在后訓練時代,大模型構(gòu)建起從數(shù)據(jù)生成到模型強化的正向循環(huán)機制至關(guān)重要。就像移動互聯(lián)網(wǎng)時代搜推系統(tǒng)的“數(shù)據(jù)飛輪”效應(yīng)——通過應(yīng)用數(shù)據(jù)優(yōu)化算法,算法又反哺應(yīng)用,人工智能大模型也應(yīng)形成“數(shù)據(jù)飛輪”,借助AI生產(chǎn)訓練數(shù)據(jù)實現(xiàn)自我訓練。
他還認為,后訓練的核心在于從通用模型到領(lǐng)域知識、再到個體經(jīng)驗的深化。谷歌提出的L0-L6層級標準為后訓練提供了框架,從基礎(chǔ)模型的泛泛問答到高級的強化學習和智能體應(yīng)用,后訓練將推動AI從“發(fā)動機時代”走向“造車時代”。
“國內(nèi)AI市場已經(jīng)全面進入后訓練時代,企業(yè)需要從通用模型出發(fā),結(jié)合傳統(tǒng)機器學習和機理方法,最終實現(xiàn)個體化的應(yīng)用?!彼f。
來源:北京科技報