目標(biāo)
故障管理的目標(biāo)是盡快恢復(fù)正常的服務(wù)運營,將組件失敗對業(yè)務(wù)所造成的負面影響降到最低,從而確保滿足事先與業(yè)務(wù)客戶之間所約定的服務(wù)級別的目標(biāo)和服務(wù)級別質(zhì)量。
實踐中需要基于業(yè)務(wù)的戰(zhàn)略,來制定IT的服務(wù)級別的目標(biāo)和服務(wù)質(zhì)量要求。許多服務(wù)商基于自身的資源配置和交付能力來制定服務(wù)級別目標(biāo),這樣做的結(jié)果是這些服務(wù)并不滿足業(yè)務(wù)的需求,最終導(dǎo)致的結(jié)果就是業(yè)務(wù)與IT矛盾劇增。所以服務(wù)的價值需要從客戶的角度出發(fā)來進行定義。這些質(zhì)量要求可以是與服務(wù)相關(guān)的任何要素,通過服務(wù)級別管理在服務(wù)級別協(xié)議(Service Level Agreement,SLA)中進行約定。2
內(nèi)容故障管理的內(nèi)容包括故障發(fā)現(xiàn)和歸一化處理、故障呈現(xiàn)、故障隔離、故障修復(fù)和故障的存儲與查詢。
(1)故障發(fā)現(xiàn)和歸一化處理:通過故障檢測發(fā)現(xiàn)故障,并對故障信息進行歸一化處理,并保存至故障數(shù)據(jù)庫中。網(wǎng)管系統(tǒng)定義統(tǒng)一的故障級別和故障顯示模式。
根據(jù)告警的嚴重程度可以將告警等級分為以下級別:
①嚴重故障:急待解決的故障,否則子網(wǎng)或設(shè)備將無法運行。
②重要故障:設(shè)備不能完成其主要功能,影響到部分業(yè)務(wù)的提供。
③次要故障:設(shè)備不能完成其主要功能,但未對其他子網(wǎng)或設(shè)備造成影響。
④警告:設(shè)備發(fā)生局部故障,使其性能降低,但未影響主要業(yè)務(wù)功能。
⑤已清除。
⑥不確定。
(2)故障呈現(xiàn):應(yīng)有圖形、故障列表、聲音等多種呈現(xiàn)方式。對于不同的故障級別能以不同的顏色顯示。一般情況下,以綠色表示正常,淡藍色表示已清除,深藍色表示不確定,黃色表示警告,橙色表示次要故障,粉紅色表示重要故障,紅色表示嚴重故障,灰色表示脫離管理。應(yīng)支持管理人員對故障顏色的定制。
(3)故障隔離:應(yīng)提供故障診斷和綜合分析功能,根據(jù)采集到的告警信息,進行故障的診斷和綜合,確定最終故障點或故障的原因。最后通過遠程參數(shù)設(shè)置進行故障隔離。
(4)故障修復(fù):對可修復(fù)的故障,進行人工修復(fù);對不可修復(fù)的故障,可重新分配該故障區(qū)域的參數(shù)設(shè)置。
(5)故障的存儲與查詢:能夠?qū)⒐收显O(shè)備、故障發(fā)生時間、故障修復(fù)時間、故障現(xiàn)象和故障可能原因保存到數(shù)據(jù)庫中。此外,可以按照設(shè)備類型和故障時間進行故障的查詢統(tǒng)計,并可以打印輸出或?qū)С龅轿募小?
體系結(jié)構(gòu)目前多個組織都在對故障管理體系結(jié)構(gòu)進行積極開拓研究,并開發(fā)相關(guān)標(biāo)準(zhǔn)用于規(guī)范故障管理系統(tǒng)的設(shè)計和開發(fā)工作。例如,北大兩洋公約組織(NATO)在其2005年發(fā)布的標(biāo)準(zhǔn)STANAG 4626“模塊化開放式航空電子結(jié)構(gòu)”,從宏觀和微觀兩個層面規(guī)范了故障管理,在宏觀層面,由頂層體系結(jié)構(gòu)ASAAC(00—78)提出了一體化的故障管理需求、原則和框架,在微觀層面,ASAAC(00—76)規(guī)范了通用功能模塊(CFM)的可測試設(shè)計,ASAAC(00—74)規(guī)范了層次化的健康管理軟件結(jié)構(gòu)。ARINC653標(biāo)準(zhǔn)在應(yīng)用程序接口方面規(guī)范了一套健康監(jiān)控接口。4
使用工具開發(fā)或選擇什么樣的工具,依賴于網(wǎng)絡(luò)管理的需求和具體的網(wǎng)絡(luò)環(huán)境。
1.簡單工具
最簡單的工具可以指出故障的存在但不能指明其發(fā)生的原因。例如,一個簡單的工具可以將ICMP Echo消息發(fā)送給計算機網(wǎng)絡(luò)上的每一個主機和設(shè)備以測試其IP網(wǎng)絡(luò)層的連通性。如果網(wǎng)絡(luò)沒有使用TIP/IP,可以使用一個程序反復(fù)試圖連接每一個主機和設(shè)備的方法來完成同樣的測試。工具可以標(biāo)出每一個失敗的連接,并為進一步的查詢提供了依據(jù)。
2.復(fù)雜工具
如果網(wǎng)絡(luò)上的主機和設(shè)備足夠復(fù)雜到可以報告網(wǎng)絡(luò)事件,就應(yīng)該開發(fā)一個復(fù)雜的工具來利用這種能力。當(dāng)通過記錄網(wǎng)絡(luò)事件或通過查詢檢測到一個故障時,這個工具將及時通知給你。同時,通過關(guān)鍵網(wǎng)絡(luò)事件也可以幫助分離故障發(fā)生的原因。
3.高級工具
高級管理工具利用網(wǎng)絡(luò)管理協(xié)議沿著路徑對每一設(shè)備進行查看,一直到主機B前的最后一個設(shè)備(我們假定兩臺機器都可以與該路徑上的每一設(shè)備進行通信,但它們之間卻無法通信)。工具在這些設(shè)備上都沒有發(fā)現(xiàn)故障,而用戶仍然無法通過網(wǎng)絡(luò)發(fā)送電子郵件。這時,工具將在兩臺機器之間執(zhí)行一系列新的測試,盡管很費時,但可以檢查出許多可能的故障。5