故障管理是現(xiàn)代電信網(wǎng)管理的5大功能之一,故障管理是網(wǎng)絡(luò)管理的一個(gè)重要組成部分,故障管理的智能化是故障管理追求的目標(biāo),也是復(fù)雜、高速網(wǎng)絡(luò)高可靠性、高生存性的必然要求。
摘要:隨著通信網(wǎng)絡(luò)的迅速發(fā)展和業(yè)務(wù)的拓展,對(duì)網(wǎng)絡(luò)的管理與維護(hù)變得越來越困難。告警相關(guān)性在通信網(wǎng)絡(luò)故障維護(hù)中起著十分關(guān)鍵的作用。文中首先介紹了故障管理和告警關(guān)聯(lián)的概念,在此基礎(chǔ)上介紹了幾種告警關(guān)聯(lián)方法,分析了它們的優(yōu)缺點(diǎn)。通過對(duì)比幾種方法,提出采用基于事例推理和基于規(guī)則推理的兩種方法對(duì)故障進(jìn)行關(guān)聯(lián)分析。
關(guān)鍵詞:故障管理,告警關(guān)聯(lián),基于規(guī)則的推理,基于事例推理
1引言
網(wǎng)絡(luò)管理員面對(duì)通信網(wǎng)絡(luò)中產(chǎn)生的大量告警信息,往往很難從中找出故障的真正原因,從而無法快速實(shí)施故障修復(fù)和障礙排除。對(duì)于故障管理來講,其難點(diǎn)就在于故障診斷和定位。為了更好的解決故障診斷定位問題,需要對(duì)所接收的告警信息進(jìn)行分析和處理,以便能更好地完成故障管理的任務(wù)。
為了更好的把故障管理的智能化的思想運(yùn)用到通信網(wǎng)絡(luò)中,以解決大型通信網(wǎng)中大量的告警信息,本文將首先介紹幾種具有代表性的故障管理告警關(guān)聯(lián)技術(shù),并通過對(duì)比分析這幾種方法,選擇將基于規(guī)則和實(shí)例的關(guān)聯(lián)分析方法相結(jié)合,進(jìn)而來分析告警信息,從而使故障的定位更加準(zhǔn)確。
2基本概念
在網(wǎng)絡(luò)管理領(lǐng)域,故障是人們對(duì)服務(wù)中出現(xiàn)問題的感知,尤其是用戶的感知。故障是產(chǎn)生告警事件的原因。告警是當(dāng)檢測到錯(cuò)誤或異常狀態(tài)時(shí)產(chǎn)生的特定類型的通知。但它只是表明可能有故障發(fā)生,并不一定有故障發(fā)生。當(dāng)網(wǎng)絡(luò)中出現(xiàn)故障時(shí),會(huì)引發(fā)一系列告警,但并不是所有告警都表明故障原因,所以需要對(duì)網(wǎng)絡(luò)中發(fā)生的告警事件進(jìn)行相關(guān)性分析,確定產(chǎn)生故障的根本原因。
告警相關(guān)性分析是指對(duì)告警進(jìn)行合并和轉(zhuǎn)化,將多個(gè)告警合并成一條具有更多信息量的告警,確定能反應(yīng)故障根本原因的告警,準(zhǔn)確定位故障[1]。
3幾種告警關(guān)聯(lián)技術(shù)
3.1基于規(guī)則的推理
基于規(guī)則的推理又稱為基于規(guī)則的專家系統(tǒng)、專家系統(tǒng)、產(chǎn)生式系統(tǒng)和黑板系統(tǒng)等,它是最早出現(xiàn)的一種事件關(guān)聯(lián)技術(shù)。
這種方法的特定領(lǐng)域的知識(shí)包含在一組規(guī)則集中,而與特定情況相關(guān)的知識(shí)構(gòu)成了事實(shí)。每個(gè)基于規(guī)則的系統(tǒng)都有一個(gè)控制策略,決定應(yīng)用規(guī)則的次序。例如,當(dāng)結(jié)束條件已經(jīng)被滿足,則停止計(jì)算[1]。
3.2基于事例的推理
基于事例的推理是通過直接利用過去的經(jīng)驗(yàn)和方法,來解決給定的問題。事例是以前遇到并已經(jīng)解決的特定問題;谑吕耐评硎菍⑦^去成功的事例存入事例庫;遇到新問題時(shí),在事例庫中尋找類似的過去事例,利用類比推理方法得到新問題的近似解答;再加以適當(dāng)修改,使之完全適合新問題。事例庫的維護(hù)主要是按著名的遺忘曲線理論,即長期不用的信息將會(huì)被遺忘,所以要?jiǎng)h除長期不用的事例。
3.3基于模型的推理
在基于模型的推理系統(tǒng)中,每個(gè)被管對(duì)象都有一個(gè)模型與之相對(duì)應(yīng)。一個(gè)模型實(shí)際上就是一個(gè)軟件模塊。處于網(wǎng)絡(luò)管理系統(tǒng)中的事件相關(guān)器建立在面向?qū)ο蟮哪P椭,模型之間的協(xié)作形成事件關(guān)聯(lián)。網(wǎng)絡(luò)管理系統(tǒng)和被管網(wǎng)元之間的通信是通過事件關(guān)聯(lián)器和每個(gè)被管網(wǎng)元的模型之間的通信實(shí)現(xiàn)的,被管網(wǎng)元和被管網(wǎng)元之間的通信是通過被管網(wǎng)元的模型之間的通信實(shí)現(xiàn)的。這樣,模型之間的關(guān)系反映出它們所代表的被管網(wǎng)元之間的關(guān)系[2]。
每個(gè)模型通過與自身所表示的被管網(wǎng)元以及與其它模型之間進(jìn)行通信,分析自身所表示的網(wǎng)元是否發(fā)生故障。因此,網(wǎng)元的故障首先由模擬該網(wǎng)元的模型識(shí)別出,然后報(bào)告給網(wǎng)絡(luò)管理系統(tǒng)。
3.4貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)[3]提出處理不確定性的新方法。通過這些方法即使在信息不完全和不精確的情況下,也可以進(jìn)行推理。通信網(wǎng)絡(luò)中發(fā)生的告警事件,可能會(huì)發(fā)生丟失,收集到的具有相關(guān)性告警事件是不確定的。而且激發(fā)相關(guān)性告警的故障原因也是不確定的。所以通過貝葉斯網(wǎng)絡(luò)來分析通信網(wǎng)絡(luò)中告警相關(guān)性,可以克服告警事件的不確定性。
3.5神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是模仿人類神經(jīng)系統(tǒng)的工作原理,又相互聯(lián)結(jié)的神經(jīng)元組成的系統(tǒng)。各神經(jīng)元之間是簡單的輸入/輸出的關(guān)系。通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型,而這個(gè)模型本身相當(dāng)于一個(gè)“黑箱”,我們并不了解“黑箱”內(nèi)部的東西,而只要求我們在已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中輸入端輸入數(shù)據(jù),就可以在輸出端直接得到預(yù)期的結(jié)果。
3.6數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是在數(shù)據(jù)中發(fā)現(xiàn)新穎的模式。它是基于過去事例的泛化的一種歸納學(xué)習(xí)。數(shù)據(jù)挖掘在通信領(lǐng)域中的典型應(yīng)用是基于歷史告警數(shù)據(jù),發(fā)現(xiàn)告警相關(guān)性規(guī)則。根據(jù)發(fā)現(xiàn)的規(guī)則,來分析和預(yù)測網(wǎng)絡(luò)元件可能出現(xiàn)的故障。
3.7模糊邏輯
由于通信網(wǎng)絡(luò)結(jié)構(gòu)十分復(fù)雜,幾乎不可能建立關(guān)于這些網(wǎng)絡(luò)的精確模型,所以需要用模糊邏輯方法來處理一些具體問題。而且實(shí)際上由于網(wǎng)絡(luò)配置經(jīng)常發(fā)生變化,網(wǎng)絡(luò)模型越詳細(xì),那么它過時(shí)的速度會(huì)越快。并且在故障和告警之間的因果關(guān)系通常是不完全的,如由于路由故障,一些告警事件發(fā)生丟失。因此可以通過模糊邏輯描述出不精確網(wǎng)絡(luò)模型,用于分析不完全的告警相關(guān)性[1]。
由通信專家所提供的知識(shí)經(jīng)常是不精確的,很難直接用于網(wǎng)絡(luò)管理。模糊邏輯中最根本的概念是模糊集合。模糊集合中任何一個(gè)元素歸屬于某個(gè)集合,不再是從True或False的兩者選擇其一,而是在區(qū)間[0,1]之間的一個(gè)值。所以通過模糊邏輯來描述網(wǎng)絡(luò)模型,采用模糊推理來確定出相關(guān)性規(guī)則。
4分析和比較
下面對(duì)上述幾種告警關(guān)聯(lián)技術(shù)的優(yōu)缺點(diǎn)進(jìn)行分析和比較。
基于規(guī)則的推理系統(tǒng)結(jié)構(gòu)簡單,比較容易實(shí)現(xiàn)。但對(duì)于基于規(guī)則的系統(tǒng)來說,當(dāng)規(guī)則數(shù)目達(dá)到一定量時(shí),規(guī)則庫的維護(hù)變得越來越困難。而且知識(shí)的獲取是基于規(guī)則系統(tǒng)的一個(gè)很大瓶頸,因?yàn)橐?guī)則獲取主要從專家那里獲得,且無自學(xué)習(xí)的功能。而且在這種演繹推理過程中,沒有充分利用過去經(jīng)驗(yàn)并且缺乏記憶。
基于事例的推理克服了基于規(guī)則的推理的許多不足:前者知識(shí)的單元是事例,檢索是基于對(duì)事例的部分匹配,而對(duì)于后者知識(shí)的單元是規(guī)則,檢索是基于對(duì)規(guī)則的完全匹配。但是在基于事例的推理系統(tǒng)剛開始運(yùn)行的時(shí)候,一般很少能找到完全匹配的事例,隨著事例庫的增長,系統(tǒng)的效率也會(huì)逐漸提高。并且系統(tǒng)具有自學(xué)習(xí)的能力。缺點(diǎn)是它總是與某一個(gè)特定應(yīng)用領(lǐng)域緊密相關(guān),而不存在一個(gè)通用的事例方法。它對(duì)于網(wǎng)絡(luò)變化處理反應(yīng)不敏感,處理過程較復(fù)雜而且費(fèi)時(shí),這對(duì)于要求實(shí)時(shí)性高的告警處理是一個(gè)問題。
基于模型的推理通過模型間的互操作來達(dá)到事件關(guān)聯(lián)的目的,這對(duì)降低網(wǎng)絡(luò)管理系統(tǒng)的網(wǎng)絡(luò)負(fù)載有一定的好處。但是它需要為每個(gè)網(wǎng)元建立一個(gè)模型軟件,當(dāng)網(wǎng)絡(luò)規(guī)模逐漸增大時(shí)這一任務(wù)的復(fù)雜性就會(huì)越來越高。
對(duì)于貝葉斯網(wǎng)絡(luò)來說,計(jì)算出每一個(gè)節(jié)點(diǎn)相關(guān)概率是一個(gè)NP-hard的問題。雖然通過采用恰當(dāng)?shù)膯l(fā)式算法,可以在可接受的時(shí)間內(nèi)算出幾千個(gè)節(jié)點(diǎn)的計(jì)算,但貝葉斯網(wǎng)絡(luò)邊界概率的計(jì)算效率仍是一個(gè)有待解決的難題。
基于神經(jīng)網(wǎng)絡(luò)的方法具有良好的自學(xué)習(xí)能力,而且對(duì)輸入的數(shù)據(jù)具有較好的容錯(cuò)性。但神經(jīng)網(wǎng)絡(luò)需要過多的訓(xùn)練,在通信網(wǎng)絡(luò)中很難找到較好的訓(xùn)練數(shù)據(jù)。
數(shù)據(jù)挖掘方法不需要知道網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)關(guān)系,因此當(dāng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)生變化時(shí),可以通過告警的歷史記錄進(jìn)行分析,自動(dòng)發(fā)現(xiàn)新的告警相關(guān)性規(guī)則,這減輕了網(wǎng)絡(luò)管理員的工作強(qiáng)度,提高了工作效率。因此基于數(shù)據(jù)挖掘告警相關(guān)性系統(tǒng)可以很快地調(diào)整適應(yīng)一些變化快的通信網(wǎng)絡(luò),解決通信網(wǎng)絡(luò)中出現(xiàn)的新問題[1]。
5結(jié)論
隨著通信網(wǎng)絡(luò)的迅速發(fā)展,對(duì)網(wǎng)絡(luò)的維護(hù)變得越來越困難,對(duì)告警處理愈顯重要。
傳統(tǒng)上人們傾向于采用某一種方法對(duì)告警事件進(jìn)行分析,但是通過上面介紹,我們可以得知,每一種方法都有其優(yōu)缺點(diǎn)。如果僅僅采用一種方法,那么其效果在網(wǎng)絡(luò)規(guī)模較小的情況下,還可以滿足實(shí)際要求。當(dāng)通信網(wǎng)絡(luò)規(guī)模越來越大時(shí),顯然已經(jīng)無法滿足網(wǎng)絡(luò)維護(hù)的要求。因此我們可以選用其中的兩種或以上方法同時(shí)對(duì)告警事件進(jìn)行分析。
從上面的介紹中,我們可以得知,基于規(guī)則的推理和基于事例的推理這兩種方法的具有一定的互補(bǔ)性;谝(guī)則的推理算法最大優(yōu)點(diǎn)是它更符合人的思維,便于人們的理解,系統(tǒng)結(jié)構(gòu)簡單,比較容易實(shí)現(xiàn)。所有知識(shí)都采用“if-then”或者“condition-action”規(guī)則集的形式;谑吕评淼南到y(tǒng)具有自學(xué)習(xí)的能力,通過直接利用過去的經(jīng)驗(yàn)和方法,來解決給定的問題。該方法還可與神經(jīng)網(wǎng)絡(luò)和遺傳算法相結(jié)合,進(jìn)一步完善其學(xué)習(xí)能力。針對(duì)通信網(wǎng)絡(luò)的特點(diǎn),我們以這兩種推理方法為主要手段對(duì)網(wǎng)絡(luò)故障進(jìn)行分析。
參考文獻(xiàn):
[1]鄭慶國,呂衛(wèi)鋒.通信網(wǎng)絡(luò)中的告警相關(guān)性研究[J].計(jì)算機(jī)工程與應(yīng)用.2002(2):11-14.
[2]彭熙,李艷,肖德寶.網(wǎng)絡(luò)故障管理中幾種事件關(guān)聯(lián)技術(shù)的分析與比較.計(jì)算機(jī)應(yīng)用研究[J].2003(9):145-148.
[3]DavidHeckerman,MichaelP.Wellman.Real-worldApplicationofBayesianNetworks[J].ACM,1995,38(3):24-26.
轉(zhuǎn)載請注明來自:http://www.jinnzone.com/jisuanjiyingyonglw/23513.html