隨著人工智能(AI)模型規(guī)模以及應用范圍的不斷拓展,性能上限和能耗瓶頸正逐漸顯現(xiàn)出來。大語言模型(LLM)、強化學習和卷積神經(jīng)網(wǎng)絡等 AI 模型的復雜性不斷增長,正在將傳統(tǒng)電子計算推向極限,能源需求也不斷增加。
傳統(tǒng)電子計算硬件(如 GPU 和 TPU)的速度和效率由于受到摩爾定律和登納德縮放定律的限制,能效瓶頸愈發(fā)明顯,支撐 AI 所需的計算能力可能會將現(xiàn)有電子硬件推向極限,與此同時,AI 整體能耗的上升也導致碳排放增多,對數(shù)據(jù)中心附近的電網(wǎng)構成壓力。
面對日益增長的計算需求,使用光子而非電子的光子計算為這些挑戰(zhàn)提供了一個潛在的解決方案。
本周《自然》雜志上的兩篇重磅論文,介紹了一種結合“光”和“電”的計算機芯片,展示了利用硅基光子學技術的互補突破。這兩項工作利用了一種既處理電信號又利用光信號的新型芯片,在提升計算性能的同時也能降低能耗。
經(jīng)過實際應用測試,他們提出的電子–光子混合計算系統(tǒng)在關鍵性能指標上不僅能夠與純電子處理器相媲美,在某些實際應用中甚至表現(xiàn)出超越電子處理器的優(yōu)勢。這標志著我們朝著真正實現(xiàn)光子計算潛能邁出了重要一步。
具體而言,一篇論文展示了一種名為 PACE 的光子加速器,這個由超過 16000 個光子組件組成的大型加速器,采用 64×64 的矩陣,能夠?qū)崿F(xiàn)高速計算(最高達 1 GHz),并且與小規(guī)模電路或單個光子組件相比,最小延遲減少了 500 倍。這種極低延遲的計算,對于實時處理來說是一個重要的計算速度指標。PACE 也被證明能夠解決被稱為“伊辛問題”的復雜計算問題,表明了該系統(tǒng)在實際應用中的可行性。
在另一篇獨立的論文中,描述了一種能夠高效高精度執(zhí)行 AI 模型的光子處理器。該處理器由四個 128×128 的矩陣組成,可以執(zhí)行自然語言處理模型 BERT 和用于圖像處理的神經(jīng)網(wǎng)絡 ResNet,其精度與傳統(tǒng)電子處理器不相上下。研究人員還演示了該光子處理器的多種應用,包括生成莎士比亞風格的文本、準確分類電影評論,以及玩經(jīng)典的 Atari 電腦游戲《吃豆人》等。
兩個團隊均表示,他們的系統(tǒng)是可擴展的,還有進一步優(yōu)化的空間。“光子計算已經(jīng)發(fā)展了幾十年,但這些演示可能意味著我們終于可以利用光的力量來構建更強大、更節(jié)能的計算系統(tǒng)。”在 Nature 同期發(fā)表的一篇評論文章中,達特茅斯學院工程學助理教授 Anthony Rizzo 表示。
光子計算,不再受制于晶體管限制的計算技術
在計算機和 AI 技術高速發(fā)展的今天,內(nèi)存訪問和數(shù)據(jù)傳輸占據(jù)了絕大部分 AI 工作負載的能耗和執(zhí)行時間,甚至超過了計算本身的消耗。即使計算單元幾乎不消耗能量,整體效率仍然受到數(shù)據(jù)傳輸?shù)南拗啤?/p>
計算技術也正處在一個前所未有的轉(zhuǎn)折點。AI 工作負載對計算能力的需求已經(jīng)超越了傳統(tǒng)擴展定律(如摩爾定律、登納德縮放定律和內(nèi)存擴展定律)所能提供的能力。這三項定律,尤其是在每單位硅面積的基礎上,已經(jīng)基本停滯。
近幾十年來,科學家們一直在探索尋找新的計算技術,以解決基于晶體管架構的固有限制。
例如,量子計算能夠在某些問題上實現(xiàn)指數(shù)級加速,但目前在糾錯、可擴展性和保持相干性方面面臨挑戰(zhàn)。此外,為量子計算機創(chuàng)建可證明比經(jīng)典計算機算法更高效的算法也存在困難;DNA 計算利用分子級并行性,但面臨顯著的實際障礙,包括操作速度慢以及與傳統(tǒng)計算系統(tǒng)接口的困難;類腦計算和模擬計算方法提供了受生物神經(jīng)網(wǎng)絡啟發(fā)的獨特信息處理方式,但通常缺乏靈活性、通用適用性和與現(xiàn)有算法的兼容性;基于碳納米管的處理器旨在取代硅晶體管,但仍然受到連接納米管計算元件的電氣線路充放電所需的能量和時間成本的限制。
光子學作為一種替代傳統(tǒng)電子技術的方案,因其具有高帶寬、低延遲、顏色并行化等固有優(yōu)勢,以及通過光基計算實現(xiàn)更高能效的潛力而備受關注。光子計算是一種利用光信號進行計算的技術。光子計算的優(yōu)勢在于光的速度極快,光信號的帶寬很高,而且光子計算的能耗更低。換句話說,光子計算就像是“信息高速公路”,可以讓數(shù)據(jù)傳輸和處理變得更加高效。
而且,光子計算具有更高的并行性和更低的功耗,理論上可以顯著提升計算速度和能效。此外,矩陣乘法和累加(MAC)運算是 AI 的核心計算操作,使用光子電路可以更快、更高效地完成這些操作。近些年來,科學家們已經(jīng)開發(fā)了包括利用時間-波長交錯調(diào)制和光電乘法的光子加速器,展示了朝著實用光子處理器在 AI 任務中應用邁出的重要一步。
光子計算作為一種有潛力的研究領域已經(jīng)存在了數(shù)十年,但其在實際應用中的推廣一直受到制約,原因在于缺乏能夠?qū)崿F(xiàn)芯片級、可規(guī)模化生產(chǎn)的光學處理單元。盡管一些最先進的展示證明了集成光子學在加速計算方面的潛力,但這些光子芯片的性能評估大多是在單獨測試中進行,而現(xiàn)實系統(tǒng)中的數(shù)據(jù)大多依賴于電子領域。因此,光子計算必須與電子技術緊密集成,共同設計才能發(fā)揮出最佳性能。
事實上,這兩項技術并非互相競爭,而是各有所長、互為補充。具體來說,光子技術在執(zhí)行線性運算時(即輸入與輸出數(shù)據(jù)之間存在線性、成比例關系的情況)表現(xiàn)得更為高效;而電子技術則在處理非線性運算時(即輸入與輸出數(shù)據(jù)之間通過復雜數(shù)學函數(shù)關聯(lián),而不再保持簡單比例關系)具有更大優(yōu)勢。
PACE:首個基于商用硅光子技術實現(xiàn)的大規(guī)模光子加速器
光子計算的潛力尚未完全實現(xiàn),主要受限于大規(guī)模集成和復雜電路設計的挑戰(zhàn),包括光學信號與電子信號的協(xié)同集成和轉(zhuǎn)換、在大規(guī)模復雜電路中類比計算的精度問題,以及適合光子硬件的算法和模型開發(fā)。
Yichen Shen 團隊介紹了一種基于大規(guī)模集成光子技術的光子加速器系統(tǒng) PACE,該系統(tǒng)能夠?qū)崿F(xiàn)超低延遲的矩陣乘法與累加(MAC)運算,并在解決計算復雜度高的問題(如 Ising 問題)方面表現(xiàn)出顯著的性能優(yōu)勢。
圖|PACE 系統(tǒng)(來源:Nature)
具體而言,研究團隊基于商用 65 納米硅光子技術,集成了超過 16000 個光子組件,提出了一種 64×64 的 PACE。而且 PACE 采用光電協(xié)同集成設計,將光子集成電路(PIC)和電子集成電路(EIC)封裝在一個系統(tǒng)級封裝(SiP)中。電子芯片基于 28 納米 CMOS 技術,負責數(shù)據(jù)輸入、輸出和邏輯控制。
他們將光子芯片和電子芯片通過 2.5D 封裝技術緊密集成在一個封裝內(nèi),實現(xiàn)高密度信號連接,從而能夠支持大規(guī)模矩陣運算。系統(tǒng)通過光調(diào)制器和探測器實現(xiàn)高速光電信號轉(zhuǎn)換,并通過嵌入式靜態(tài)隨機存取存儲器(SRAM)管理數(shù)據(jù)存儲。
性能方面,他們將 PACE 的表現(xiàn)與一款最先進的 NVIDIA A10 GPU 在解決涉及 64×64 矩陣乘法的伊辛模型時的表現(xiàn)進行了對比,結果顯示在最小延遲這一關鍵指標上,計算時間從 2300 納秒縮短到僅 5 納秒,近乎實現(xiàn)了 500 倍的改進。此外,PACE 的延遲擴展系數(shù)約比 TPU 低 1000 倍,這意味著隨著矩陣規(guī)模的增大,其延遲優(yōu)勢會愈加顯著。
此外,系統(tǒng)通過引入可控噪聲(來自激光器、模擬驅(qū)動器和數(shù)字電路)實現(xiàn)高效的比特翻轉(zhuǎn),從而提高算法的搜索效率。并通過嚴格的器件規(guī)格控制和校準,系統(tǒng)實現(xiàn)了平均 7.61 位的有效精度(ENOB),并能夠在 ±5°C 的溫度波動下保持穩(wěn)定。能效方面,PACE 的能效達到 4.21 TOPS/W(不包括激光器)和 2.38 TOPS/W(包括激光器),顯著優(yōu)于傳統(tǒng)電子計算平臺。
研究人員表示,PACE 是首個基于商用硅光子技術實現(xiàn)的大規(guī)模光子加速器,該系統(tǒng)在延遲和計算速度方面的顯著優(yōu)勢,為光子計算在 AI、優(yōu)化問題和實時處理等領域的應用奠定了基礎。與傳統(tǒng) GPU 相比,PACE 在延遲和計算時間上實現(xiàn)了兩個數(shù)量級的提升,為光子計算的商業(yè)化和大規(guī)模應用提供了重要參考。
研究人員也指出,通過進一步優(yōu)化器件設計和信號處理,未來光子加速器的延遲可以降低到 3 納秒以下。光子計算也有望成為解決復雜計算問題的新一代計算平臺,特別是在需要高吞吐量和超低延遲的場景中。
新型光子 AI 處理器:已開玩《吃豆人》
從更宏觀的角度來看,計算技術的未來需要在內(nèi)存、互連和計算 3 個關鍵領域取得突破。開發(fā)一種可擴展的、類似 DRAM 的內(nèi)存解決方案仍然是一個重大且未解決的挑戰(zhàn),目前尚無明確的實用解決方案。
Nicholas Harris 團隊介紹了一種革命性的光子處理器,通過 Lightmatter 突破性光子互連技術 Passage 顯著降低數(shù)據(jù)傳輸能耗并提供超高帶寬,為這一關鍵瓶頸提供了解決方案。
這種新型的光子 AI 處理器能夠運行常見的 AI 模型,比如 ResNet(用于圖像分類)、BERT(用于文本分析)以及 DeepMind 的 Atari 強化學習算法(用于游戲決策),通過光子芯片實現(xiàn)了接近傳統(tǒng)電子計算的精度,同時具有更高的能效。
圖|四核光子處理器(來源:Nature)
具體而言,該光子 AI 處理器集成了四個 128×128 的光子張量核心(PTC,負責光信號的計算),每個 PTC 包含 128 個 10 位光子向量單元和 128×128 個 7 位權重單元。PTC 通過高速光電信號與數(shù)字控制芯片(DCI,管理光子芯片的運行,并將光信號轉(zhuǎn)換為數(shù)字信號)相連,實現(xiàn)了高效的數(shù)據(jù)傳輸和處理。
性能表現(xiàn)上,該處理器在 78 瓦的電功耗和 1.6 瓦的光功耗下,每秒可執(zhí)行 65.5 萬億次 16 位自適應塊浮點(ABFP)運算。這是目前光子處理器中最高的集成水平。
精度方面,該處理器在多個 AI 任務中表現(xiàn)出與 32 位浮點計算相當?shù)木?,例?ResNet 18 在 CIFAR-10 數(shù)據(jù)集上的分類準確率達到 97.8%,與傳統(tǒng)電子硬件相當。
任務能力上,該光子處理器可以執(zhí)行分類任務(如識別圖像)、回歸任務(如預測數(shù)值)和強化學習任務(如玩復雜的游戲)。其中在分類任務 ResNet18 等模型上表現(xiàn)出與數(shù)字平臺相當?shù)姆诸悳蚀_率;在回歸任務(如 SQuAD)中,由于光子計算的噪聲敏感性,該處理器的性能略有下降;在強化學習算法上,該處理器能夠運行 Atari 游戲,盡管性能略低于 FP32 處理器,但展示了其在復雜決策任務中的潛力。
圖|光子處理器運行 Atari 游戲《吃豆人》,其性能可與傳統(tǒng)電子處理器媲美(來源:Nature)
研究人員認為,這項研究的意義在于展示了光子計算在 AI 領域的巨大潛力。光子處理器的高能效和高性能使其成為未來 AI 硬件的有力競爭者,尤其是在需要處理大規(guī)模數(shù)據(jù)和復雜模型的場景中。這種處理器的成功運行,也為后晶體管時代的計算技術提供了一種新的可能性,也為未來 AI 硬件的發(fā)展指明了方向。
計算技術的一個歷史時刻
光子計算的發(fā)展已醞釀數(shù)十載,如今這些全新的突破性成果或許意味著我們即將真正利用“光”的力量,打造出更強大且更節(jié)能的計算系統(tǒng)。
光子芯片在能效和性能上的優(yōu)勢,使其成為未來 AI 硬件的有力競爭者,尤其是在大規(guī)模數(shù)據(jù)處理和復雜模型訓練中。而光子芯片的成功運行證明了其在實際 AI 任務中的可行性,為未來光子 AI 硬件的商業(yè)化和應用奠定了基礎。
研究人員也指出,光子芯片代表了一個令人興奮且必要的新前沿,最新的研究成果意味著計算技術的下一章不必受制于晶體管的限制,這代表著計算技術的一個歷史時刻。不過,這并不意味著電子計算將消失,相反,我們正在進入一個多種計算范式共存的時代。
尤其值得注意的是,這兩項成果演示中所用的光子芯片和電子芯片均是在標準的互補金屬氧化物半導體(CMOS)廠房中制造的,也正是目前用于生產(chǎn)微電子芯片的廠房。因此,現(xiàn)有制造基礎設施可以被迅速利用以實現(xiàn)大規(guī)模生產(chǎn)。
另外,兩套系統(tǒng)均已通過標準“主板”接口(技術上稱為外設組件互聯(lián)高速接口)實現(xiàn)了完整集成,從而使其能夠與現(xiàn)有的各類接口及協(xié)議兼容。這是計算歷史上首次展示一種非晶體管技術能夠以與現(xiàn)有電子系統(tǒng)相當?shù)木群托蔬\行復雜的真實工作負載。這種從理論可能性到實際實施的轉(zhuǎn)變標志著計算技術的新篇章,驗證了光子學作為一種能夠顯著影響 AI 處理未來發(fā)展的可行解決方案。
不過,雖然光子處理器已經(jīng)取得了顯著進展,但要想將光子計算徹底作為電子芯片的商業(yè)替代方案,仍存在不少技術障礙。例如,如何進一步提高精度、降低功耗,以及如何優(yōu)化材料和制造工藝等。盡管如此,我們?nèi)杂谐浞掷碛善诖庾有酒诓痪玫膶砟軌蜃呷氍F(xiàn)實系統(tǒng)。