精品人妻无码一区二区三区软件 ,麻豆亚洲AV成人无码久久精品,成人欧美一区二区三区视频,免费av毛片不卡无码

您現(xiàn)在的位置是:首頁電子技術(shù)論文

省級科技論文發(fā)表大規(guī)模InfiniBand網(wǎng)絡(luò)自學(xué)習(xí)的故障診斷方法

發(fā)布時間:2015-12-11 17:42:42更新時間:2015-12-11 17:45:57 1

  隨著網(wǎng)絡(luò)的發(fā)展,很多行業(yè)都開始用科技手段來儲存信息了,數(shù)據(jù)中心是Internet的重要基礎(chǔ)設(shè)施,是為用戶提供數(shù)據(jù)存儲、計算和傳輸?shù)暮诵。本文是一?strong>省級科技論文發(fā)表范文,主要論述了大規(guī)模InfiniBand網(wǎng)絡(luò)自學(xué)習(xí)的故障診斷方法。
  摘要:針對大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)中如何有效監(jiān)控網(wǎng)絡(luò)異常事件、發(fā)現(xiàn)網(wǎng)絡(luò)性能瓶頸和潛在故障點等問題,在深入分析InfiniBand(IB)網(wǎng)絡(luò)的特性,引入了特征選取策略和增量學(xué)習(xí)策略的基礎(chǔ)上,提出了一種面向大規(guī)模IB網(wǎng)絡(luò)增量學(xué)習(xí)的故障診斷方法IL_Bayes,該方法以貝葉斯分類方法為基礎(chǔ),加入增量學(xué)習(xí)機制,能夠有效提高故障分類精度。在天河2真實的網(wǎng)絡(luò)環(huán)境下,對算法的診斷精度和誤診率進行了驗證,結(jié)果表明IL_Bayes算法具有較高的故障分類精度和較低的誤診率。

  關(guān)鍵詞:數(shù)據(jù)中心,InfiniBand,故障診斷,貝葉斯分類,增量學(xué)習(xí)

  0引言

  隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是大數(shù)據(jù)時代的到來,數(shù)據(jù)中心在Web服務(wù)、搜索引擎、電子商務(wù)、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)游戲及大規(guī)模集群計算等領(lǐng)域中的關(guān)鍵作用日益顯現(xiàn)[1]。目前數(shù)據(jù)中心的網(wǎng)絡(luò)規(guī)模日益龐大,互聯(lián)的計算節(jié)點數(shù)量能達到100000以上的量級,而交換節(jié)點的數(shù)量也接近10000量級。數(shù)據(jù)中心性能需求表現(xiàn)為高帶寬、低延遲、低主機開銷和低存儲開銷等特點[2]。InfiniBand(以下簡稱IB)是目前數(shù)據(jù)中心互聯(lián)的主流網(wǎng)絡(luò)。2013 年 11 月公布的TOP500高性能計算機排名中,InfiniBand 是最常用的互連技術(shù),在 TOP100 名單中占 48%,TOP200 占 48.5%,TOP300 占 44% 而在 TOP400 系統(tǒng)中則占 42.5%。2010年,Oracle通過在其數(shù)據(jù)倉庫和數(shù)據(jù)處理平臺Exadata中使用IB交換,處理性能提升10倍[3]。2010年,Google在其研究工作中采用IB和蝶形網(wǎng)絡(luò)拓撲構(gòu)建數(shù)據(jù)中心,網(wǎng)絡(luò)功耗節(jié)約85%[4]。2011年,Microsoft基于IB組建高性能數(shù)據(jù)中心支持其Bing Maps應(yīng)用,與傳統(tǒng)基于以太網(wǎng)的架構(gòu)相比節(jié)約80%的功耗和50%的成本[5]。Stanford課題組通過IB互聯(lián)分布式DRAM實現(xiàn)了高性能數(shù)據(jù)中心存儲系統(tǒng)[6]。

  在大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)中,網(wǎng)絡(luò)的故障率呈指數(shù)增加,長期的實踐[7]表明,故障率隨著網(wǎng)絡(luò)中節(jié)點數(shù)快速增加,例如,從服務(wù)節(jié)點故障的角度看,服務(wù)單點可靠性為99.99%,按照10000級的規(guī)模計算則網(wǎng)絡(luò)故障率為63%,若單點可靠性為99.9%,則網(wǎng)絡(luò)故障率幾乎達到100%。大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)運行的應(yīng)用通常對網(wǎng)絡(luò)性能要求嚴格,需要管理者能更加實時、精確地掌握全網(wǎng)態(tài)勢和端到端的通信性能,在網(wǎng)絡(luò)性能下降之后及時發(fā)現(xiàn)和定位故障和網(wǎng)絡(luò)擁塞, IB網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)中的應(yīng)用越來越廣泛,研究面向大規(guī)模IB網(wǎng)絡(luò)的故障診斷方法,保持和提高IB網(wǎng)絡(luò)運行的健壯性,提高網(wǎng)絡(luò)的修復(fù)能力,保障網(wǎng)絡(luò)上關(guān)鍵任務(wù)的成功完成非常重要。

  1相關(guān)研究

  近年來針對網(wǎng)絡(luò)故障的診斷方法已經(jīng)進行了大量的研究。出現(xiàn)了以貝葉斯網(wǎng)絡(luò)方法、數(shù)據(jù)挖掘方法等為主的故障診斷方法。文獻[8]提出了一種基于拉格朗日和次梯度法的網(wǎng)絡(luò)故障診斷方法(novel location approach based on Lagrangian Relaxation and Subgradient Method,LRSM),該方法對現(xiàn)在的二分圖故障傳播模型進行改進,加入虛假故障因素,在改進二分圖模型的基礎(chǔ)上提出了故障定位問題的01最優(yōu)化描述,并利用拉格朗日松弛法和次梯度法對問題進行求解,有效提高了分類檢測精度和減少了診斷時間。文獻[9]提出了一種基于譜圖理論的故障診斷算法(Alarm Correlation Algorithm based on Spectral Graph theory,ACASG),建立了時序告警關(guān)聯(lián)數(shù)據(jù)模型,將告警數(shù)據(jù)看作一個高維空間,具有相關(guān)特性的告警是隱含在該空間中的局部結(jié)構(gòu),通過譜圖理論發(fā)現(xiàn)高維數(shù)據(jù)空間中潛在的低維映射結(jié)構(gòu),通過分析低維空間中點結(jié)構(gòu)之間的相似性,實現(xiàn)告警數(shù)據(jù)的可視化顯示,該方法不僅可以發(fā)現(xiàn)告警的相關(guān)性,而且還可以通過分析譜圖的變化預(yù)測定位網(wǎng)絡(luò)中發(fā)生的故障。文獻[10]針對網(wǎng)絡(luò)層和數(shù)據(jù)鏈路層,為簡化故障決策算法、降低誤報率,提出了一種基于粗糙神經(jīng)網(wǎng)絡(luò)的故障診斷算法 (Rough Artificial Neural Network,RANN)和分層故障診斷思想,通過神經(jīng)網(wǎng)絡(luò)來逼近故障診斷這種映射關(guān)系,實現(xiàn)對故障的分類,利用正域的概念,去除冗余屬性,求取條件屬性集對于決策故障屬性集的簡化,同時結(jié)合分層分布優(yōu)化的思想,將網(wǎng)絡(luò)故障分類,每一類故障診斷系統(tǒng)含有多個反向傳播(Back Propagation, BP)子網(wǎng)絡(luò),通過粗糙集理論逐層分類,構(gòu)成一個多級復(fù)合神經(jīng)網(wǎng)絡(luò)系統(tǒng),實現(xiàn)故障分類。文獻[11]基于PMC(PreparataMetzeChien)模型,提出了一種適用于當(dāng)代數(shù)據(jù)中心網(wǎng)絡(luò)的分層式診斷(Hierarchical Fault Diagnosis, HFD)算法,由網(wǎng)絡(luò)拓撲結(jié)構(gòu)生成涵蓋所有單元的最小生成樹Xtree,按其路徑組織多次測試。根據(jù)測試結(jié)果,求出各基本單元組的故障概率,依此將系統(tǒng)中所有單元組劃分為存在故障概率較大的“相對故障單元組”和存在故障概率非常小的“相對正常單元組”兩類。文獻[12]提出了基于貝葉斯征兆解釋度的鏈路故障診斷方法進行網(wǎng)絡(luò)的故障診斷。

  由于大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)本身的復(fù)雜性、不規(guī)律性的特征,網(wǎng)絡(luò)故障分類處理過程涉及到多方面的綜合知識,想獲得良好的分類效果,不僅僅是單純的分類算法問題,必須運用多種策略加以解決。目前網(wǎng)絡(luò)故障分類方法的研究存在以下幾點不足:

  1) 訓(xùn)練樣本參差不齊,分類方法首先要進行訓(xùn)練學(xué)習(xí),其訓(xùn)練過程需要一定數(shù)量的訓(xùn)練樣本。而在網(wǎng)絡(luò)系統(tǒng)中包含著大量的不確定因素,故障癥狀與故障源之間可能存在非線性映射關(guān)系,同一種故障往往有不同的表現(xiàn),同一癥狀又往往是幾種故障共同作用的結(jié)果,多個相關(guān)故障可能同時發(fā)生。因此,選擇越多的訓(xùn)練樣本,樣本的代表性越強,訓(xùn)練效果才會越好,分類性能才能越高。一般情況下,人們比較容易得到一些大致的樣本類別,比如用戶數(shù)據(jù)報協(xié)議(User Datagram Protocol, UDP)報文、傳輸控制協(xié)議(Transmission Control Protocol, TCP)報文和Internet控制報文協(xié)議(Internet Control Message Protocol, ICMP)報文等等,然而這些訓(xùn)練樣本集中樣本的質(zhì)量往往是參差不齊的,有些樣本的表現(xiàn)模棱兩可,有些甚至是錯誤的,若直接在這些樣本上進行學(xué)習(xí),將使分類的效果大大降低?梢韵胂髮Υ嬖诖罅坎粶(zhǔn)確的分類樣本地學(xué)習(xí)是很難獲得良好的分類效果。而且在實際使用過程中,大量高質(zhì)量的訓(xùn)練樣本集合的獲得是非常困難的,通過人工的方法對訓(xùn)練樣本進行篩選也是不現(xiàn)實的。   2) 沒有統(tǒng)一的特征選取標(biāo)準(zhǔn),構(gòu)造分類器的關(guān)鍵是選擇合適的特征構(gòu)成特征向量。網(wǎng)絡(luò)系統(tǒng)中故障發(fā)生時的網(wǎng)絡(luò)表現(xiàn)有著很大的差異,代表不同故障的特征也不盡相同,選擇什么樣的特征來構(gòu)成特征向量,特征向量的長度取多大,都一定程度上影響著網(wǎng)絡(luò)管理平臺下故障分類的精度。以簡單貝葉斯分類方法為例,我們知道簡單貝葉斯方法具有簡單和分類精度高的特點,但是如果隨意使用訓(xùn)練樣本中任意單位作為特征向量的一維,不僅滿足不了簡單貝葉斯方法對特征獨立性的要求,而且會極大地影響分類精度。

  3) 學(xué)習(xí)能力弱,對待分類數(shù)據(jù)進行分類的階段是一個開環(huán)處理過程,分類系統(tǒng)在經(jīng)過一次訓(xùn)練之后,將再也無法從實際的分類處理過程中獲得更新信息,這樣缺乏學(xué)習(xí)能力的分類系統(tǒng)在實際使用過程中不能根據(jù)實際情況進行分類模型的調(diào)整,從而導(dǎo)致了分類系統(tǒng)隨著運行時間的延長和范圍的擴大,性能逐漸降低,這也是制約分類系統(tǒng)實用化的重要因素。本文提出的大規(guī)模IB網(wǎng)絡(luò)自學(xué)習(xí)的故障診斷方法IL_Bayes有以下創(chuàng)新:

  1)對現(xiàn)有的訓(xùn)練樣本進行必要的預(yù)處理,從初始的訓(xùn)練樣本集中去除噪聲樣本,選取高質(zhì)量的樣本構(gòu)造分類器,實現(xiàn)良好的分類效果。

  2)我們對不同的故障類型選取不同的特征向量,構(gòu)成特征向量的特征分量要盡可能地反映故障的特征,獲得較高的故障分類精度。

  3)通過增加對分類結(jié)果的學(xué)習(xí)能力,使分類系統(tǒng)不斷自我完善和更新,可以應(yīng)對實際大規(guī)模網(wǎng)絡(luò)的復(fù)雜情況。

  2大規(guī)模IB網(wǎng)絡(luò)自學(xué)習(xí)的故障診斷方法

  2.1相關(guān)描述

  首先給出本文所提故障診斷方法的相關(guān)定義。

  定義1C={C1,C2,…,Cm}是一個故障類集合,其中C1,C2,…,Cm分別是該故障類集合的故障類。

  定義2d=(x1,x2,…,xn)為新故障樣本,即待分類故障,其中x1,x2,…,xn是新樣本d的n個屬性。

  定義3f(xj)為故障d中屬性的評估函數(shù),在P(xj|Ci)f(xj)中, f(xj)越小,屬性xj在分類器中的作用越小。

  貝葉斯分類方法起源于貝葉斯統(tǒng)計學(xué),是以概率論為基礎(chǔ)的分類模型,它為不確定知識的表達提供了自然、直觀的方法,是目前非精確知識表達與推理領(lǐng)域最有效的理論模型。貝葉斯分類方法主要有以下3個規(guī)則[12]:

  1)貝葉斯規(guī)則。

  P(B|A)=P(A|B)P(B)P(A)(1)

  式中:P(B)被稱為先驗概率,即在A狀態(tài)未知時B發(fā)生的概率; P(B|A)為后驗概率,表示A狀態(tài)已知時B發(fā)生的概率。貝葉斯規(guī)則允許在兩個方向上進行概率推理。

  2)獨立性規(guī)則。

  如果P(A|B)=P(A|B,C),則給定變量B,變量A和變量C是獨立的。即在B已知的情況下,變量C不能改變變量A的概率。

  3)鏈?zhǔn)揭?guī)則。

  在P(A|B)中,A具有n個屬性,即A={x1,x2,…,xn},則:

  P(A|B)=P((x1,x2,…,xn)|B)=∏ni=1P(xi|B)(2

  2.2大規(guī)模IB網(wǎng)絡(luò)自學(xué)習(xí)的故障診斷方法IL_Bayes

  設(shè)故障訓(xùn)練集樣本有m類,記為C={C1,C2,…,Cm}, 對于給定的新樣本d,其屬于Ci類的條件概率是P(d|Ci)。根據(jù)貝葉斯定理,Ci類的后驗概率為P(Ci|d),即:

  P(Ci|d)=P(d|Ci)P(Ci)P(d)(3)

  其中:P(Ci)、P(d)對于所有的類均為常數(shù),可以忽略,則式(3)可以簡化為:

  P(Ci|d)∝P(d|Ci)(4

  貝葉斯分類器將新的故障樣本d歸于類Ci的依據(jù)就是要求出極大后驗假設(shè),即:

  P(Ci|d)=argmax{P(Cj|d)P(Cj)}; j=1,2,…,m(5

  新故障d由故障的不同屬性所組成,即d=(x1,x2,…,xn),n是d中的屬性個數(shù),根據(jù)樸素貝葉斯分類器的獨立性假設(shè),有:

  P(d|Ci)=P((x1,x2,…,xn)|Ci)=∏nj=1P(xj|Ci) (6)

  式中P(xj|Ci)表示分配器預(yù)測屬性xj在類Ci中發(fā)生的概率。

  P(xj|Ci)=(1+T1(xj,Ci))/|q|+∑mw=1T1(xj,Cw)

  其中:|q|表示屬性總數(shù),T1(xj,Ci)表示屬性xj在Ci類的所有類中出現(xiàn)的頻數(shù)之和。

  構(gòu)造每個故障的向量,用n維屬性向量表示A={x1: f(x1),…,xn: f(xn)},xi(i=1,2,…,n)為故障屬性,f(xj)為屬性的評估函數(shù),則式(4)可以改進為:

  P(Ci|d)∝∏nj=1P(xj|Ci)f(xj)(7

  為未分類故障d分類就是計算P(Ci|d),未分類故障d屬于類別Ci P(Ci|d)>P(Cj|d),i≠j,由式(7)可知,計算P(Ci|d)只需要計算未分類故障d的n個屬性xj在類Ci中的概率即可。

  基于上述分析,本文提出面向大規(guī)模IB網(wǎng)絡(luò)增量學(xué)習(xí)的故障診斷方法IL_Bayes,在利用貝葉斯分類器處理數(shù)據(jù)的過程中,難免會遇到訓(xùn)練集類別里面不存在的其他類,對于這種情況處理過程就會發(fā)生錯誤,如果在貝葉斯分類器上建立自學(xué)習(xí)機制,對于處理過程中產(chǎn)生錯誤的數(shù)據(jù),根據(jù)數(shù)據(jù)特征建立新的類別,就可以有效解決這個問題。本方法分為3個階段,即構(gòu)造和訓(xùn)練分類器階段、故障分類處理階段和再學(xué)習(xí)階段。

  1)構(gòu)造和訓(xùn)練分類器階段。

  依次讀取訓(xùn)練樣本集中的每個故障告警信息,提取故障屬性xj。根據(jù)專家知識和經(jīng)驗,人為地對這訓(xùn)練集樣本進行故障分類,記為C={C1,C2,…,Cm};

 、賹颖炯拿總故障和該故障的屬性,分別計算∏nj=1P(xj|Ci)f(xj),根據(jù)計算結(jié)果判斷未分配故障d屬于哪個故障類,即Ci P(Ci|d)>P(Cj|d), i≠j;  、趯τ跊]有匹配上的故障告警信息,則重復(fù)步驟①,建立新的故障類,并加到故障類集合C中,重復(fù)步驟②;

 、塾(xùn)練結(jié)束,將所分的故障類C添加到分類器中以便處理故障數(shù)據(jù)。

  2)故障告警數(shù)據(jù)分類處理階段。

  ①當(dāng)網(wǎng)絡(luò)發(fā)生異常時,讀取待處理故障告警信息d的屬性xi,計算∏nj=1P(xj|Ci)f(xj),根據(jù)計算結(jié)果判斷未分配故障d屬于哪個分類,即Ci P(Ci|d)>P(Cj|d), i≠j;

  ②對于處理錯誤的告警信息,即故障類集合C中不存在此類故障的分類,則轉(zhuǎn)入再學(xué)習(xí)階段。

  3)再學(xué)習(xí)階段。

 、僮x取故障處理過程中出現(xiàn)錯誤的告警信息,提取故障屬性xj。

  ②根據(jù)故障告警信息的屬性值,建立新的故障類,并加到故障集C中,重復(fù)故障告警數(shù)據(jù)處理階段步驟①;

  3實驗分析

  為了驗證本文方法,構(gòu)建了一個基于InfiniBand的高性能計算機互聯(lián)結(jié)構(gòu),其網(wǎng)絡(luò)拓撲為胖樹結(jié)構(gòu),如圖1所示。

  其中存在12個邊緣接入的匯聚交換節(jié)點(Aggregate Switch),每個接入交換節(jié)點支持18臺服務(wù)器接入。二級交換采用全相連結(jié)構(gòu),每個匯聚交換節(jié)點通過3個連接和每個核心交換節(jié)(Core Switch)互聯(lián),從而構(gòu)成了非阻塞的網(wǎng)絡(luò)結(jié)構(gòu)。鏈路均采用QDR(40Gb/s)傳輸速率。

  所有服務(wù)器均運行Red Hat Linux 6.1 x86 64位操作系統(tǒng),采用開源OFED(Open Fabrics Enterprise Distribution)1.5.4驅(qū)動和管理HCA設(shè)備,通過其中的OpenSM模塊提供了對網(wǎng)絡(luò)的管理。

  OpenSM是InfiniBand的子網(wǎng)管理軟件,用來管理集群系統(tǒng)中的成百上千個節(jié)點,默認的工作模式是發(fā)現(xiàn)IB的子網(wǎng)拓撲,初始化子網(wǎng),然后定期掃描子網(wǎng)的變化。OpenSM運行的日志文件存放在/var/log/message和/var/log/opensm.log中,第1個文件一般存放的是主要的事件日志,第2個文件存放的是系統(tǒng)運行錯誤的詳細情況。

  具體內(nèi)容包括:告警時間、線程id、日志等級和日志具體內(nèi)容。下面對日志等級進行詳細說明:OpenSM的日志共分為8個等級,具體如下:

  0x01 �CERROR(error message

  0x02 �CINFO (basic message, low volume

  0x04 �CVERBOSE(interesting stuff, mosderate volume

  0x08 �CDEBUG(diagnostic, high volume

  0x10 �CFUNCS(function entry/exit, very high volume

  0x20 �CFRAMES(dumps all SMP and GMP frames

  0x40 �CROUTING(dump FDB routing information

  0x80 �Ccurrently unused

  在網(wǎng)絡(luò)運行過程中日志記錄的比較常見故障類型如表1所示。

  故障類型描述

  osm_get_port_by_mad_addr當(dāng)前SM不能識別一些查找請求的LID

  pi_rcv_check_and_fix_lid

  1.SM質(zhì)疑一些結(jié)束端口的PortInfo和基于LID 0xffff的接收數(shù)據(jù)

  2.SM還未配置的端口,IBA 規(guī)則不能識別其LID

  3.日志消息屬于某些調(diào)試信息

  osm_pr_rcv_process1.當(dāng)前SM不能識別被SA PathRecord請求的端口

  2.由于SM沒有作出反應(yīng)導(dǎo)致結(jié)束端口堆棧查詢超時

  3.上述兩個錯誤顯示在子網(wǎng)改變期間查詢,結(jié)束端口堆棧應(yīng)該重試查詢

  log_trap_info1.流量控制監(jiān)視程序計數(shù)器在監(jiān)視時超時,SMA交換機發(fā)出緊急trap

  2.流量控制更新錯誤

  3.可能是由于在OperationalVLs上的對等端口不匹配

  log_rcv_cb_error1.可能是新的MulticastFDBTop字段選項出問題

  2.從SM流入交換機的初始路徑出問題

  3.交換機的固件版本不相符

  4.在SM中禁止了這些流

  sm_mad_ctrl_send_err_cb1.SM沒有收到從SMA的NodeInfo查詢響應(yīng)

  2.檢查VL15的下行計數(shù)器

  sm_mad_ctrl_send_err_cb1.Mellanox需要FDR10的專有SM MAD支持

  2.可能是使用了舊版本的Mellanox固件,如果可能,需要檢查版本和更新

  3.替代方法是關(guān)閉opensm配置文件中的SM經(jīng)由FDR10的FDR10支持

  perfmgr_mad_send_err_callbackPMA沒有回應(yīng)PerfMgr的請求(獲取或設(shè)置)

  Perfmgr_send_mad當(dāng)發(fā)送PerfMgtMAD到PMA時,PerfMgt沒有在“suspended”狀態(tài)

  osm_get_port_by_mad_addr當(dāng)前SM不能識別一些查找請求的LID

  pi_rcv_check_and_fix_lid1.SM質(zhì)疑一些結(jié)束端口的PortInfo和基于LID 0xffff的接收數(shù)據(jù)

  2.SM還未配置的端口,IBA 規(guī)則不能識別其LID   3.日志消息屬于某些調(diào)試信息

  osm_pr_rcv_process1.當(dāng)前SM不能識別被SA PathRecord請求的端口

  2.由于SM沒有作出反應(yīng)導(dǎo)致結(jié)束端口堆棧查詢超時

  3.上述兩個錯誤顯示在子網(wǎng)改變期間查詢,結(jié)束端口堆棧應(yīng)該重試查詢
省級科技論文發(fā)表

  在一個故障發(fā)生的時候,診斷算法應(yīng)該能夠盡可能準(zhǔn)確地定位故障,按照某種故障是否發(fā)生以及是否正確診斷出故障,故障診斷算法的精確性表現(xiàn)為4個方面,如表2所示。

  故障診斷的精度由公式(A+D)/(A+B+C+D)計算,其中A+B=100%,C+D=100%。在實際的診斷中,人們常常更加關(guān)心A類和C類的精度,A類精度代表了一個診斷方法的實際能力,一個故障發(fā)生后是否能夠被診斷方法識別和定位,C類精度標(biāo)志著一個診斷系統(tǒng)的可靠性。

  本文選取1500個網(wǎng)絡(luò)事件信息作為待分類故障樣本集,根據(jù)上述分析,故障樣本集大致可以分為15個故障類,將其中的x個事件作為訓(xùn)練集,1500-x個事件作為驗證集,將IL_Bayes算法與文獻[12]中提出的基于模糊概率神經(jīng)網(wǎng)絡(luò)的故障分類算法(Fuzzy Probabilistic Neural Network Classifier, FPNNC)在故障A類精度(即診斷精度)和C類精度(即誤診率)兩方面進行了比較,結(jié)果如圖2和圖3所示。

  由圖2可以看出,兩個分類算法的分類精度隨著訓(xùn)練集的增大而增加,由于對故障進行了增量學(xué)習(xí),IL_Bayes算法比FPNNC算法的分類精度高。

  圖3可以看出兩個算法的故障誤診率隨著訓(xùn)練集的增大而降低,增量再學(xué)習(xí)機制使得IL_Bayes方法比FPNNC方法的故障誤診率更低。

  通過上述實驗證明,IL_Bayes方法具有較高的分類精度和較低的故障誤診率,在一定程度上有效地解決了IB網(wǎng)絡(luò)的故障分類問題,為IB網(wǎng)絡(luò)故障的診斷提供了一個較為有效的方法,同時在IL_Bayes方法中引入了再學(xué)習(xí)機制,能對分類器進行修正,不斷完善故障類集合,達到了故障分類性能優(yōu)化的目的。

  4結(jié)語

  本文針對大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)中如何有效監(jiān)控網(wǎng)絡(luò)異常事件、發(fā)現(xiàn)網(wǎng)絡(luò)性能瓶頸和潛在故障點,為網(wǎng)絡(luò)性能優(yōu)化提供支持,深入分析IB網(wǎng)絡(luò)的特性,引入了特征選取策略和增量學(xué)習(xí)策略,提出了一種面向大規(guī)模IB網(wǎng)絡(luò)增量學(xué)習(xí)的故障診斷方法IL_Bayes,在天河2真實的網(wǎng)絡(luò)環(huán)境,并對算法的診斷精度和誤診率進行了驗證。

  本文研究了貝葉斯理論在故障診斷中的應(yīng)用,進一步研究高效率的貝葉斯推理算法和學(xué)習(xí)算法將是提高故障診斷決策方法效率的關(guān)鍵因素和重要研究內(nèi)容。

  參考文獻:

  [1]DENG G, GONG Z, WANG H. Characteristics research on modern data center network[J]. Journal of Computer Research and Development, 2014, 51(2):395-407.(鄧罡,龔正虎,王宏. 現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)特征研究[J]. 計算機研究與發(fā)展,2014,51(2): 395-407.)

  [2]SHEN L. Research and implementation of InfiniBand network interface [D]. Changsha: National University of Defense Technology, 2010: 1-3.(沈力. InfiniBand網(wǎng)絡(luò)接口的研究與實現(xiàn)[D]. 長沙:國防科學(xué)技術(shù)大學(xué),2010: 1-3.)
  省級科技論文發(fā)表期刊推薦《電腦知識與技術(shù)雜志》創(chuàng)刊于1994年,是經(jīng)國家批準(zhǔn)的旬刊雜志!峨娔X知識與技術(shù)》是一本面向計算機全行業(yè)的綜合性學(xué)術(shù)刊物。編委委員均來自國內(nèi)各著名高校的教授和博士生導(dǎo)師,他們是我國計算機科學(xué)領(lǐng)域方面的專家、學(xué)者和權(quán)威人士;稿源來自全國各高等院校,相關(guān)專業(yè)研究機構(gòu)以及國內(nèi)大型信息通訊、軟件研發(fā)企業(yè)設(shè)置的專業(yè)研究所。學(xué)術(shù)交流版刊登的論文均有2名國內(nèi)同行專家審稿通過。郵發(fā)代號:26-188。


轉(zhuǎn)載請注明來自:http://www.jinnzone.com/dianzijishulw/55711.html