版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

算力調(diào)度

百度百科
原創(chuàng)
全球最大中文百科全書
收藏

算力調(diào)度是指在分布式、多計(jì)算節(jié)點(diǎn)的計(jì)算環(huán)境中,基于任務(wù)的優(yōu)先級(jí)、資源需求、實(shí)時(shí)負(fù)載等因素,動(dòng)態(tài)調(diào)配計(jì)算資源以達(dá)到最佳系統(tǒng)性能和資源利用效率的過程。算力調(diào)度技術(shù)的核心在于通過智能算法將算力資源高效地分配給需要處理的任務(wù),避免資源閑置或過載。廣泛應(yīng)用于云計(jì)算、大數(shù)據(jù)處理、邊緣計(jì)算、人工智能模型訓(xùn)練等領(lǐng)域,是現(xiàn)代信息技術(shù)體系中至關(guān)重要的組成部分。

隨著計(jì)算需求的多樣化和海量數(shù)據(jù)的增長,算力調(diào)度的應(yīng)用場(chǎng)景從傳統(tǒng)的服務(wù)器集群擴(kuò)展到分布式計(jì)算網(wǎng)絡(luò)、邊緣計(jì)算環(huán)境及AI計(jì)算平臺(tái)。例如,在智能制造中,通過算力調(diào)度技術(shù)實(shí)現(xiàn)跨地域計(jì)算資源的優(yōu)化調(diào)度,以提升生產(chǎn)效率和降低成本。此外,在自動(dòng)駕駛汽車的研發(fā)中,算力調(diào)度能夠有效管理和分配大量的傳感器數(shù)據(jù)處理任務(wù),確保實(shí)時(shí)性和準(zhǔn)確性。

在全球數(shù)字經(jīng)濟(jì)時(shí)代的大背景下,算力相關(guān)技術(shù)及產(chǎn)業(yè)正成為推動(dòng)國家經(jīng)濟(jì)和科技發(fā)展和的強(qiáng)大動(dòng)力。2021年5月,國家發(fā)展改革委、中央網(wǎng)信辦、工業(yè)和信息化部、國家能源局聯(lián)合印發(fā)了《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,實(shí)施推進(jìn)“東數(shù)西算”工程,進(jìn)一步推進(jìn)中國數(shù)字經(jīng)濟(jì)的發(fā)展。這對(duì)于搶占數(shù)字產(chǎn)業(yè)鏈制高點(diǎn),推動(dòng)建設(shè)數(shù)字強(qiáng)國有著極其重要的戰(zhàn)略意義1?!吨腥A人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》明確指出,要“加快構(gòu)建全國一體化大數(shù)據(jù)中心體系,強(qiáng)化算力統(tǒng)籌智能調(diào)度”2。

簡介

算力調(diào)度是解決算力供需矛盾、算力網(wǎng)絡(luò)傳輸問題、算力資源普惠問題的新型能力體系。算力調(diào)度根據(jù)算力資源提供方的供給能力和應(yīng)用需求方的動(dòng)態(tài)資源需求,整合區(qū)域內(nèi)算力基礎(chǔ)設(shè)施底層的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等多維資源,基于算力調(diào)度平臺(tái)對(duì)算力資源進(jìn)行一致性管理、一體化編排和統(tǒng)一調(diào)度,實(shí)現(xiàn)跨行業(yè)、跨地區(qū)、跨層級(jí)的算力資源的協(xié)同聯(lián)動(dòng)與精準(zhǔn)匹配3。在資源監(jiān)控方面,使用基于云的監(jiān)控系統(tǒng),如AWS CloudWatch或Google Cloud Monitoring,實(shí)時(shí)收集和分析計(jì)算節(jié)點(diǎn)的CPU、內(nèi)存、網(wǎng)絡(luò)帶寬使用情況,以及響應(yīng)時(shí)間和系統(tǒng)負(fù)載等關(guān)鍵性能指標(biāo)。調(diào)度效果方面,這些系統(tǒng)通過自動(dòng)化的資源彈性擴(kuò)展和收縮,不僅能夠應(yīng)對(duì)突發(fā)的計(jì)算需求,還能確保長期運(yùn)行任務(wù)的高效和穩(wěn)定,從而顯著提高整個(gè)網(wǎng)絡(luò)的響應(yīng)速度和資源利用率。

《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021—2023年)》明確了要形成布局合理、技術(shù)先進(jìn)、綠色低碳、算力規(guī)模與數(shù)字經(jīng)濟(jì)增長相適應(yīng)的新型數(shù)據(jù)中心發(fā)展格局,同時(shí)指出要完善公共算力資源供給,優(yōu)化算力服務(wù)體系,提升算力服務(wù)調(diào)度能力4。

發(fā)展歷史

起源及發(fā)展歷程

算力調(diào)度的概念最早可以追溯到20世紀(jì)70年代,當(dāng)時(shí)分布式系統(tǒng)和并行計(jì)算的研究逐漸興起。早期的算力調(diào)度技術(shù)主要用于超級(jí)計(jì)算機(jī)和科學(xué)計(jì)算任務(wù)的分配管理。這些早期系統(tǒng)依賴于FCFS和輪詢等靜態(tài)調(diào)度算法,雖易于實(shí)現(xiàn)但缺乏彈性,難以滿足復(fù)雜的資源需求,用于在有限的計(jì)算資源之間進(jìn)行任務(wù)調(diào)度。然而,隨著計(jì)算需求的增長,這些方法逐漸暴露出局限性,特別是在處理大規(guī)模分布式任務(wù)時(shí),靜態(tài)調(diào)度的效率不再足夠。

進(jìn)入20世紀(jì)90年代,隨著互聯(lián)網(wǎng)的普及和分布式計(jì)算的發(fā)展,任務(wù)的多樣性和規(guī)模越來越大,算力調(diào)度技術(shù)也逐漸從簡單的靜態(tài)調(diào)度演變?yōu)閯?dòng)態(tài)調(diào)度。此時(shí),研究人員開始嘗試通過引入動(dòng)態(tài)負(fù)載均衡和自適應(yīng)調(diào)度算法來優(yōu)化資源的利用效率。

進(jìn)入21世紀(jì),隨著云計(jì)算、大數(shù)據(jù)和人工智能的興起,算力調(diào)度技術(shù)得到了進(jìn)一步的推動(dòng)。云計(jì)算的快速發(fā)展使得計(jì)算資源的虛擬化和按需分配成為可能。此時(shí),算力調(diào)度的核心從單純的計(jì)算資源分配,逐步轉(zhuǎn)向跨多個(gè)數(shù)據(jù)中心、多個(gè)區(qū)域的資源協(xié)同管理。特別是在2010年之后,虛擬化技術(shù)和云平臺(tái)的普及推動(dòng)了算力調(diào)度技術(shù)的廣泛應(yīng)用。

發(fā)展現(xiàn)狀

目前,算力調(diào)度技術(shù)已經(jīng)被廣泛應(yīng)用于云計(jì)算平臺(tái)和大規(guī)模數(shù)據(jù)中心。例如,亞馬遜AWS、微軟Azure和阿里云等云服務(wù)提供商均基于高度智能化的調(diào)度算法,實(shí)現(xiàn)資源動(dòng)態(tài)調(diào)度和彈性擴(kuò)展,在全球范圍內(nèi)調(diào)度大量的計(jì)算資源。通過先進(jìn)的算力調(diào)度技術(shù),這些平臺(tái)能夠提供彈性的計(jì)算能力,適應(yīng)不同的用戶需求,并有效應(yīng)對(duì)動(dòng)態(tài)變化的任務(wù)負(fù)載。

在國家政策與產(chǎn)業(yè)需求的雙重驅(qū)動(dòng)下,作為算力網(wǎng)絡(luò)建設(shè)的中堅(jiān)力量,國內(nèi)三大運(yùn)營商紛紛加大對(duì)算力網(wǎng)絡(luò)相關(guān)的技術(shù)研發(fā)投入和發(fā)展路徑探索3。中國移動(dòng)通信集團(tuán)有限公司在2018年就開始了關(guān)于算力感知網(wǎng)絡(luò)(Computing—Aware Networking,CAN)的研究,基于CAN的概念,從度量、協(xié)議、架構(gòu)等不同層面協(xié)同演進(jìn),構(gòu)建面向算網(wǎng)一體化的新型基礎(chǔ)網(wǎng)絡(luò),目前已經(jīng)完成了多個(gè)移動(dòng)邊緣計(jì)算站點(diǎn)的CAN部署,驗(yàn)證了CAN調(diào)度系統(tǒng)既能實(shí)現(xiàn)最優(yōu)的系統(tǒng)資源利用率,又能實(shí)現(xiàn)最佳的用戶體驗(yàn)5。2020年,中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司研究院發(fā)布了《算力網(wǎng)絡(luò)架構(gòu)與技術(shù)體系白皮書》,基于云網(wǎng)融合領(lǐng)域的不斷發(fā)展,制定了集算網(wǎng)控制、編排、管理、轉(zhuǎn)發(fā)等功能于一體的算力網(wǎng)絡(luò)體系架構(gòu),該架構(gòu)能夠最大限度兼容日前發(fā)展中的軟件定義網(wǎng)絡(luò)(Software—Defined Networking,SDN)和網(wǎng)絡(luò)功能虛擬化(Network Function Virtualization,NFV)技術(shù)路線,同時(shí)實(shí)現(xiàn)算力資源提供方、服務(wù)提供方及業(yè)務(wù)消費(fèi)方不同角色的個(gè)性化服務(wù)6。中國電信集團(tuán)有限公司遵循“網(wǎng)是基礎(chǔ)。云為核心,網(wǎng)隨云動(dòng),云網(wǎng)一體”的十六字原則,提出云網(wǎng)融合目標(biāo)技術(shù)架構(gòu)。該架構(gòu)引入云原生、安全、人工智能(Artificial Intelligence,AI)和大數(shù)據(jù)等技術(shù)要素,通過基礎(chǔ)設(shè)施層、云網(wǎng)大腦、云網(wǎng)操作系統(tǒng)和應(yīng)用平臺(tái)實(shí)現(xiàn)云網(wǎng)邊端智能協(xié)同、各類資源融合調(diào)度的發(fā)展愿景7。

關(guān)鍵技術(shù)

算力感知、算力度量、算力路由、算網(wǎng)編排、算力交易是實(shí)現(xiàn)算力調(diào)度這一過程的關(guān)鍵技術(shù)。

算力感知

算力感知是實(shí)現(xiàn)算力調(diào)度的基礎(chǔ),通過感知全網(wǎng)的算力資源信息,保證按需、實(shí)時(shí)調(diào)度不同位置的算力資源。算力感知既包括對(duì)算力提供方的計(jì)算、存儲(chǔ)、通信、服務(wù)等不同類型資源與服務(wù)的感知,也包括對(duì)算力需求方業(yè)務(wù)需求信息的全面感知3。通過實(shí)時(shí)監(jiān)測(cè)和收集網(wǎng)絡(luò)中各計(jì)算節(jié)點(diǎn)的資源使用情況,包括CPU、GPU利用率、內(nèi)存狀態(tài)等,幫助調(diào)度系統(tǒng)獲取完整的資源分布和狀態(tài)信息。算力感知依賴于傳感器和監(jiān)測(cè)軟件的支持,可以在各個(gè)計(jì)算節(jié)點(diǎn)上采集并匯總數(shù)據(jù),實(shí)時(shí)反饋到中央調(diào)度系統(tǒng),為算力度量和后續(xù)的調(diào)度決策提供準(zhǔn)確的數(shù)據(jù)支撐。

算力度量

算力度量是在算力感知的基礎(chǔ)上,對(duì)各計(jì)算節(jié)點(diǎn)的算力資源進(jìn)行量化評(píng)價(jià)和對(duì)比,通過量化CPU、內(nèi)存和帶寬等資源指標(biāo),提供實(shí)時(shí)可視化的算力分布。計(jì)算需求多樣的情況下,算力度量可以幫助系統(tǒng)做出精準(zhǔn)的資源選擇。例如,深度學(xué)習(xí)模型訓(xùn)練往往需要高GPU算力,而數(shù)據(jù)分析任務(wù)則需要更高的內(nèi)存與I/O性能。算力度量的作用是幫助調(diào)度系統(tǒng)快速、準(zhǔn)確地識(shí)別最合適的計(jì)算節(jié)點(diǎn),以優(yōu)化計(jì)算資源的利用。統(tǒng)一的算力度量標(biāo)準(zhǔn)是實(shí)現(xiàn)靈活調(diào)度多元異構(gòu)算力資源的前提,但算力與水力、電力等能源不同,算力資源的復(fù)雜性決定了難以通過單一維度來量化算力,算力資源的復(fù)雜性主要體現(xiàn)在三個(gè)方面3。第一,由CPU、GPU、現(xiàn)場(chǎng)可編程邏輯門陣列(Field Programmable Gate Array,F(xiàn)PGA)、專用集成電路(Application Specific Integrated Circuit,ASIC)等多種計(jì)算單元組成的異構(gòu)處理體系難以進(jìn)行標(biāo)準(zhǔn)化的統(tǒng)一;第二,除了計(jì)算單元,算力資源還包括網(wǎng)絡(luò)、存儲(chǔ)等多維資源,需要從多個(gè)維度進(jìn)行算力資源的建模和評(píng)估;第三,不同行業(yè)、不同企業(yè)、不同場(chǎng)景對(duì)算力資源類型和需求量的要求存在較大差異,用戶很難精準(zhǔn)把握需要多少算力8。因此,業(yè)界亟需建立統(tǒng)一的標(biāo)準(zhǔn)將算力業(yè)務(wù)需求量化以提供更好的服務(wù)。確定算力資源模型是建立算力度量標(biāo)準(zhǔn)的關(guān)鍵。主流的思路是從業(yè)務(wù)場(chǎng)景維度出發(fā),將總體的算力資源統(tǒng)一表達(dá)為包含計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等多維度資源在內(nèi)的綜合模型3。

算力路由

算力路由是算力調(diào)度的核心技術(shù)之一,通過動(dòng)態(tài)整合算力節(jié)點(diǎn)的資源信息,構(gòu)建包括網(wǎng)絡(luò)與計(jì)算參數(shù)的新型路由表,并根據(jù)實(shí)際業(yè)務(wù)需求為任務(wù)分配最優(yōu)路徑。當(dāng)前的算力路由技術(shù)大多基于SDN和NFV實(shí)現(xiàn)集中式調(diào)度,但集中式解決方案已難以滿足新型應(yīng)用的實(shí)時(shí)性需求。計(jì)算優(yōu)先網(wǎng)絡(luò)作為一種分布式路由協(xié)議,將算力節(jié)點(diǎn)的計(jì)算狀況和網(wǎng)絡(luò)狀態(tài)納入路由信息,使用虛擬服務(wù)ID(身份識(shí)別號(hào))來確定最優(yōu)的算力節(jié)點(diǎn),從而實(shí)現(xiàn)用戶體驗(yàn)、資源利用率和網(wǎng)絡(luò)效率的最佳化。算力路由通過算力與算法的動(dòng)態(tài)結(jié)合,例如在內(nèi)容分發(fā)網(wǎng)絡(luò)中,算力路由選擇最優(yōu)路徑來滿足帶寬需求,能夠在算力資源豐富的網(wǎng)絡(luò)中精確完成算力調(diào)度,保證優(yōu)質(zhì)的用戶體驗(yàn)。例如,在自動(dòng)駕駛汽車的實(shí)時(shí)數(shù)據(jù)處理中,算力路由能夠根據(jù)車輛位置和附近數(shù)據(jù)中心的算力狀況動(dòng)態(tài)調(diào)整數(shù)據(jù)路徑,確保行車安全系統(tǒng)的低延遲和高可靠性。在智慧城市的安全監(jiān)控系統(tǒng)中,算力路由通過優(yōu)化數(shù)據(jù)流向智能分析中心的路徑,提高應(yīng)急響應(yīng)速度和效率,顯著提升整個(gè)系統(tǒng)的性能和響應(yīng)能力。

算網(wǎng)編排

算網(wǎng)編排是算力調(diào)度的“算網(wǎng)大腦”,實(shí)現(xiàn)了算網(wǎng)業(yè)務(wù)的路徑編排和控制。算網(wǎng)編排基于算、網(wǎng)、數(shù)的多元組合能力,進(jìn)行資源的路徑編排和路由選擇,確保算力資源能夠跨域協(xié)同。算網(wǎng)編排具備云原生編排能力、多量綱的編排能力以及運(yùn)行態(tài)的編排能力8。云原生編排指應(yīng)用程序無需進(jìn)行復(fù)雜的適配性改造,由算網(wǎng)大腦提供通用性編排框架,實(shí)現(xiàn)應(yīng)用程序的自動(dòng)、靈活、敏捷部署及擴(kuò)縮容編排。多量綱的編排指通過多屬性決策算法,對(duì)算網(wǎng)資源中的成本、安全、能耗等多量綱進(jìn)行實(shí)時(shí)業(yè)務(wù)編排,為用戶編排多種解決方案。運(yùn)行態(tài)編排指根據(jù)算網(wǎng)資源實(shí)時(shí)狀態(tài)變化,由動(dòng)態(tài)編排引擎根據(jù)業(yè)務(wù)特性進(jìn)行動(dòng)態(tài)拼裝,形成新的流程模板最終交回業(yè)務(wù)調(diào)度引擎,實(shí)現(xiàn)流程的動(dòng)態(tài)調(diào)度和運(yùn)行。例如,當(dāng)網(wǎng)絡(luò)流量激增時(shí),運(yùn)行態(tài)編排可以自動(dòng)調(diào)整資源分配,確保服務(wù)連續(xù)性。未來,可在現(xiàn)有的編排技術(shù)基礎(chǔ)上利用人工智能技術(shù),通過機(jī)器學(xué)習(xí)實(shí)現(xiàn)對(duì)歷史運(yùn)行數(shù)據(jù)的學(xué)習(xí)和分析,進(jìn)一步豐富調(diào)度策略、校正調(diào)度精度3。

算力交易

算力交易是指算力提供方與算力需求方通過算力交易平臺(tái)進(jìn)行資源交易的新型商業(yè)模式。算力交易平臺(tái)作為算力買方與賣方的中間角色,基于“身份、協(xié)議、訂單、賬單、傭金”等方面的可信交易體系,根據(jù)用戶的差異化需求,實(shí)現(xiàn)智能、公平、泛在、可溯、可信的算力交易3。算力交易方式多樣,通常包括按需租賃、競(jìng)價(jià)交易和資源拍賣等。按需租賃模式允許用戶按小時(shí)或按天租用算力資源,滿足臨時(shí)計(jì)算需求,適合短期項(xiàng)目。競(jìng)價(jià)交易類似于云平臺(tái)上的“現(xiàn)貨實(shí)例”,用戶可以通過競(jìng)價(jià)獲得更實(shí)惠的算力資源,但資源的分配會(huì)隨市場(chǎng)需求動(dòng)態(tài)調(diào)整,適合成本敏感型用戶。資源拍賣則在計(jì)算資源緊缺時(shí),讓用戶通過出價(jià)競(jìng)爭(zhēng)獲得算力。但由于算力資源種類繁多且由多方共建,總體呈現(xiàn)多維異構(gòu)、多級(jí)泛在、歸屬復(fù)雜的特點(diǎn),想要實(shí)現(xiàn)高效的算力交易需要解決算力并網(wǎng)問題、算力感知問題、多方交易公平問題、多方算網(wǎng)激勵(lì)問題、可信算力交易問題五大問題9。需要從算效、時(shí)延、綠碳、安全等多維度分類分級(jí)制定算力產(chǎn)品價(jià)格體系?;诙嗑S感知精準(zhǔn)解析實(shí)際業(yè)務(wù)需求并通過優(yōu)化算法匹配出最合適的算力供給方。此外,可以利用去中心化的分布式、可信區(qū)塊鏈技術(shù)。實(shí)現(xiàn)對(duì)多方閑散算力資源的整合以及統(tǒng)一運(yùn)營管理3。

發(fā)展前景

隨著5G、人工智能、物聯(lián)網(wǎng)(IoT)等技術(shù)的進(jìn)一步發(fā)展,算力調(diào)度技術(shù)在多樣化應(yīng)用場(chǎng)景中的作用將更加突出。在5G時(shí)代,算力調(diào)度將成為支撐邊緣計(jì)算的關(guān)鍵技術(shù),幫助快速分配和管理廣泛分布的邊緣節(jié)點(diǎn)資源,為超低延遲的應(yīng)用(如增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí))提供計(jì)算支持。同時(shí),物聯(lián)網(wǎng)的迅速擴(kuò)展對(duì)實(shí)時(shí)數(shù)據(jù)處理和資源調(diào)度提出了更高要求,算力調(diào)度能夠支持IoT設(shè)備的高效協(xié)作,實(shí)現(xiàn)跨設(shè)備的智能調(diào)配和實(shí)時(shí)響應(yīng)。未來,算力調(diào)度有望實(shí)現(xiàn)高度智能化、實(shí)時(shí)性和廣泛協(xié)同,推動(dòng)算力資源的普惠共享與高效利用,逐步構(gòu)建出真正的“算力網(wǎng)絡(luò)”,實(shí)現(xiàn)算力的隨取隨用。

未來,需要算力調(diào)度技術(shù)在異構(gòu)算力納管、算力感知和度量、跨層跨域智能調(diào)度、一體化協(xié)同服務(wù)、數(shù)據(jù)安全等方面進(jìn)一步創(chuàng)新和突破。隨著CPU、GPU、FPGA、ASIC等芯片的融合應(yīng)用,算力呈現(xiàn)出異構(gòu)多樣化,需要進(jìn)行統(tǒng)一納管。通過量化異構(gòu)算力資源和多樣化業(yè)務(wù)需求,建立統(tǒng)一的描述語言,建立算力資源度量和計(jì)費(fèi)標(biāo)準(zhǔn)。通過不同的調(diào)度引擎和調(diào)度算法,保證算力使用的便捷性,支持資源自動(dòng)化和智能化分配,實(shí)現(xiàn)跨層跨域的智能調(diào)度。同時(shí)在算力調(diào)度和使用過程中,會(huì)產(chǎn)生海量數(shù)據(jù),需要關(guān)注數(shù)據(jù)安全。根據(jù)業(yè)務(wù)的需求,對(duì)網(wǎng)絡(luò)和算力進(jìn)行管理和監(jiān)測(cè),滿足綠色、共享、智能、可信的算力服務(wù),更好地支撐算力的應(yīng)用10。

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
中氣旋
少師級(jí)
已經(jīng)閱讀
2025-04-11