日益激烈的市場競爭對BOSS系統(tǒng)的可靠性及服務(wù)質(zhì)量提出了更高的要求,容災(zāi)系統(tǒng)作為BOSS系統(tǒng)的有機(jī)組成部分,在BOSS系統(tǒng)中起著不可忽視的作用。為保障在故障或?yàn)?zāi)難情況下BOSS系統(tǒng)的業(yè)務(wù)連續(xù)性,各運(yùn)營商都在加強(qiáng)對BOSS容災(zāi)系統(tǒng)的建設(shè)力度。
【摘要】BOSS容災(zāi)系統(tǒng)的建設(shè)需要重點(diǎn)考慮容災(zāi)系統(tǒng)的地域問題、技術(shù)實(shí)現(xiàn)問題、管理及切換響應(yīng)時(shí)長問題、資源利用問題。對此,首先簡要介紹BOSS容災(zāi)系統(tǒng)的有關(guān)概念及實(shí)現(xiàn)技術(shù),然后結(jié)合黑龍江移動(dòng)BOSS容災(zāi)系統(tǒng)的建設(shè)經(jīng)驗(yàn),重點(diǎn)討論容災(zāi)系統(tǒng)的管理問題,最后介紹了容災(zāi)系統(tǒng)的多種用途。
【關(guān)鍵詞】BOSS容災(zāi)系統(tǒng),“雙中心”建設(shè),容災(zāi)管理系統(tǒng)
1容災(zāi)系統(tǒng)概述
在BOSS容災(zāi)系統(tǒng)的建設(shè)過程中,以下幾個(gè)因素需要重點(diǎn)考慮:
。1)容災(zāi)系統(tǒng)的地域問題。即容災(zāi)的主機(jī)、數(shù)據(jù)、網(wǎng)絡(luò)等備份是放在與生產(chǎn)中心相同的“本地”,還是放在離生產(chǎn)中心較遠(yuǎn)的“異地”。如放在“本地”,從技術(shù)實(shí)現(xiàn)角度看將更易實(shí)現(xiàn),從成本角度講也會(huì)使成本相對較低;但如果發(fā)生地震、洪水、火災(zāi)等破壞性大、影響面廣的災(zāi)難,“本地”容災(zāi)將失去對系統(tǒng)的保護(hù)能力,也就背離了容災(zāi)系統(tǒng)建設(shè)的初衷。因此,目前絕大多數(shù)的容災(zāi)系統(tǒng)均采用“異地”容災(zāi)的方式來進(jìn)行規(guī)劃及建設(shè)[1](注:本文討論的容災(zāi)系統(tǒng),如無特別說明,均指異地容災(zāi))。
。2)容災(zāi)系統(tǒng)的技術(shù)實(shí)現(xiàn)問題。容災(zāi)系統(tǒng)采用異地方式進(jìn)行建設(shè),當(dāng)生產(chǎn)中心發(fā)生災(zāi)難時(shí),容災(zāi)系統(tǒng)必須在距離較遠(yuǎn)處迅速接管生產(chǎn)中心來保障業(yè)務(wù)的連續(xù)性。由此可見,容災(zāi)中心首先需要有與生產(chǎn)中心時(shí)刻保持暢通的網(wǎng)絡(luò)環(huán)境;其次需要有與生產(chǎn)中心能力相當(dāng)?shù)闹鳈C(jī)、存儲(chǔ)等資源;最重要的,對于關(guān)鍵業(yè)務(wù)數(shù)據(jù),容災(zāi)中心數(shù)據(jù)還要能和生產(chǎn)中心進(jìn)行實(shí)時(shí)同步或備份,并能夠在災(zāi)難發(fā)生時(shí)由容災(zāi)中心利用復(fù)制的數(shù)據(jù)提供業(yè)務(wù)的運(yùn)營支撐服務(wù)[2]。
。3)容災(zāi)系統(tǒng)的管理及切換響應(yīng)時(shí)長問題。當(dāng)災(zāi)難發(fā)生后,容災(zāi)系統(tǒng)需要多久才能夠有效提供對業(yè)務(wù)的支撐,這是在容災(zāi)系統(tǒng)規(guī)劃初期就需要重點(diǎn)考慮的問題[3]。毫無疑問,容災(zāi)系統(tǒng)對于生產(chǎn)的接管時(shí)間越短越好。但是僅僅有必要的主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)等資源,容災(zāi)系統(tǒng)并不一定能夠在災(zāi)難發(fā)生后第一時(shí)間成為接管生產(chǎn)的可靠保障。除日常加強(qiáng)對容災(zāi)系統(tǒng)科學(xué)、持續(xù)的管理外,還需要有一個(gè)專門的管理系統(tǒng)或平臺(tái),來負(fù)責(zé)容災(zāi)系統(tǒng)的管理和切換。
。4)容災(zāi)系統(tǒng)的資源利用問題。容災(zāi)系統(tǒng)作為生產(chǎn)系統(tǒng)的保障系統(tǒng),絕大多數(shù)時(shí)間處于資源閑置狀態(tài);如何有效保障容災(zāi)系統(tǒng)資源的利用率,減少浪費(fèi),也是容災(zāi)系統(tǒng)在建設(shè)之初就需要考慮的問題。
以上問題對于容災(zāi)系統(tǒng)的可用性起著至關(guān)重要的作用,必須引起足夠重視。下面筆者結(jié)合黑龍江移動(dòng)容災(zāi)系統(tǒng)的建設(shè)歷程及BOSS系統(tǒng)維護(hù)經(jīng)驗(yàn),介紹一下對這幾個(gè)問題的分析和規(guī)劃思路。
2容災(zāi)系統(tǒng)建設(shè)
2.1容災(zāi)系統(tǒng)“雙中心”建設(shè)
黑龍江移動(dòng)BOSS容災(zāi)系統(tǒng)始建于2005年,所有BOSS系統(tǒng)支撐設(shè)備位于哈爾濱市進(jìn)鄉(xiāng)街(生產(chǎn)機(jī)房)和開發(fā)區(qū)(容災(zāi)機(jī)房)兩個(gè)機(jī)房,建設(shè)之初可實(shí)現(xiàn)數(shù)據(jù)庫、計(jì)費(fèi)、賬務(wù)等系統(tǒng)的應(yīng)用級(jí)容災(zāi);從2007年開始,逐步開始由傳統(tǒng)“生產(chǎn)-容災(zāi)”的主備機(jī)房部署方式向“生產(chǎn)-生產(chǎn)”的“雙中心”部署方式過渡(即將原來的主備機(jī)房區(qū)分為CRM機(jī)房和BOSS機(jī)房,兩個(gè)機(jī)房同時(shí)運(yùn)行生產(chǎn)業(yè)務(wù)和容災(zāi)業(yè)務(wù),互為容災(zāi)),至2010年,基本完成“雙中心”的建設(shè)工作。
采用“雙中心”進(jìn)行機(jī)房的規(guī)劃和建設(shè),有以下兩個(gè)好處:
。1)減小災(zāi)難發(fā)生時(shí)的影響范圍。將原來全部生產(chǎn)系統(tǒng)部署到一個(gè)機(jī)房的方式改為部署至兩個(gè)機(jī)房,可有效降低風(fēng)險(xiǎn)[4],是對于上述問題1的一個(gè)優(yōu)化解決方案;
。2)有效提升資源利用率。傳統(tǒng)的主備方式將使容災(zāi)側(cè)資源完全處于閑置狀態(tài),通過雙中心部署方式,可有效減少資源的浪費(fèi)[4]。在進(jìn)行“雙中心”的建設(shè)過程中,建議采用IBMpowerVM等虛擬化方式進(jìn)行主機(jī)的部署及資源分配。在運(yùn)行有虛擬化軟件的物理主機(jī)上,既運(yùn)行本機(jī)房的生產(chǎn)系統(tǒng),又運(yùn)行對端機(jī)房的容災(zāi)系統(tǒng)。在系統(tǒng)正常的情況下,資源分配以本端生產(chǎn)為主,當(dāng)災(zāi)難發(fā)生時(shí),通過虛擬化技術(shù)迅速動(dòng)態(tài)調(diào)整資源給相應(yīng)容災(zāi)系統(tǒng),同時(shí)啟動(dòng)容災(zāi)系統(tǒng)接管生產(chǎn),從而既實(shí)現(xiàn)了容災(zāi)切換的目標(biāo),又節(jié)約了資源。
2.2容災(zāi)關(guān)鍵技術(shù)實(shí)現(xiàn)——數(shù)據(jù)保護(hù)
采用雙中心的建設(shè)方式時(shí),虛擬化技術(shù)可以實(shí)現(xiàn)主機(jī)資源的動(dòng)態(tài)調(diào)整,不過容災(zāi)系統(tǒng)建設(shè)中最為關(guān)鍵的技術(shù)問題——數(shù)據(jù)的實(shí)時(shí)保護(hù)問題,仍然需要由特殊的技術(shù)手段來加以實(shí)現(xiàn)。目前黑龍江移動(dòng)采用EMC的存儲(chǔ)實(shí)時(shí)同步復(fù)制技術(shù),來實(shí)現(xiàn)生產(chǎn)端的數(shù)據(jù)不間斷地同步至容災(zāi)端。在災(zāi)難發(fā)生后,即可將復(fù)制中斷,啟用容災(zāi)端數(shù)據(jù);在災(zāi)難結(jié)束后,容災(zāi)端的數(shù)據(jù)能夠同步回生產(chǎn)端,與生產(chǎn)端保持嚴(yán)格一致[5]。EMC存儲(chǔ)同步復(fù)制在整個(gè)切換過程中的幾個(gè)狀態(tài)如下:
。1)同步狀態(tài)(如圖1)
系統(tǒng)正常情況下,R2(容災(zāi)端)與R1(生產(chǎn)端)數(shù)據(jù)保持同步,R1可以提供給生產(chǎn)主機(jī)訪問,R2的狀態(tài)為無法寫入,R2端的容災(zāi)主機(jī)此時(shí)無法對R2進(jìn)行讀寫。
(2)Failover狀態(tài)(如圖2)
在災(zāi)難發(fā)生后,R2可以提供給主機(jī)訪問,R1的主機(jī)此時(shí)無法對R1進(jìn)行讀寫。
。3)Failback狀態(tài)(如圖3)
在生產(chǎn)端恢復(fù)正常后,數(shù)據(jù)開始從R2更新至R1,此時(shí)R2重新回到無法讀寫的狀態(tài),不能提供給R2端主機(jī)訪問。
從以上幾個(gè)狀態(tài)可以看出,采用EMC的Failover技術(shù),保障了生產(chǎn)端數(shù)據(jù)與容災(zāi)端數(shù)據(jù)的一致性,同時(shí)實(shí)現(xiàn)了災(zāi)難恢復(fù)后容災(zāi)端數(shù)據(jù)同步回生產(chǎn)端這一功能。
2.3容災(zāi)管理及維護(hù)容災(zāi)系統(tǒng)的管理及維護(hù)工作是一個(gè)科學(xué)、系統(tǒng)、持續(xù)的過程,應(yīng)始終貫穿于容災(zāi)系統(tǒng)的規(guī)劃、建設(shè)、使用等各個(gè)階段[6]。筆者認(rèn)為,一個(gè)好的容災(zāi)系統(tǒng),如若要在災(zāi)難發(fā)生時(shí)充分發(fā)揮其應(yīng)有的作用,至少應(yīng)從以下幾個(gè)方面加強(qiáng)管理工作:
。1)制定容災(zāi)系統(tǒng)的管理辦法及相關(guān)細(xì)則,日常的容災(zāi)實(shí)施、演練及真實(shí)的災(zāi)難切換,均嚴(yán)格按照管理辦法進(jìn)行實(shí)施;
。2)日常維護(hù)工作中應(yīng)包含容災(zāi)系統(tǒng)的切換演練工作,建議每季度至少進(jìn)行一次真實(shí)的容災(zāi)切換演練工作,根據(jù)演練結(jié)果,發(fā)現(xiàn)并改進(jìn)問題,進(jìn)一步優(yōu)化管理工作;
。3)容災(zāi)系統(tǒng)的日常管理、切換應(yīng)做到流程化、界面化,最好能使用專門的容災(zāi)管理系統(tǒng)進(jìn)行日常維護(hù)及演練切換等操作,并且多在容災(zāi)演練工作中加以使用、驗(yàn)證、完善,這樣可以大大縮短災(zāi)難發(fā)生后容災(zāi)系統(tǒng)的切換時(shí)長;
。4)容災(zāi)系統(tǒng)的底層環(huán)境,例如主機(jī)或數(shù)據(jù)庫參數(shù)、存儲(chǔ)配置信息、賬號(hào)口令等,應(yīng)保持與生產(chǎn)一致或近似一致,否則切換后容災(zāi)系統(tǒng)可能仍無法正常對外提供服務(wù)。建議在上述的容災(zāi)管理系統(tǒng)中添加專門的功能模塊,用于檢測生產(chǎn)系統(tǒng)與容災(zāi)系統(tǒng)底層環(huán)境的一致性。
下面以黑龍江移動(dòng)的容災(zāi)管理系統(tǒng)為例,簡要介紹容災(zāi)管理系統(tǒng)的一些功能及其在容災(zāi)切換過程中的優(yōu)勢。
黑龍江移動(dòng)容災(zāi)管理系統(tǒng)始建于2010年,該系統(tǒng)集成了容災(zāi)切換、演練管理、數(shù)據(jù)管理、監(jiān)控管理等容災(zāi)系統(tǒng)日常維護(hù)及管理所需的功能(如圖4),是黑龍江移動(dòng)BOSS容災(zāi)系統(tǒng)日常演練及災(zāi)難切換的主要工具。
該管理系統(tǒng)采用B/S模式進(jìn)行部署建設(shè),在BOSS局域網(wǎng)內(nèi)任一授權(quán)的機(jī)器上均可通過瀏覽器進(jìn)行訪問,十分便于維護(hù)工作的開展及緊急容災(zāi)切換的進(jìn)行。同時(shí),切換過程采用界面化方式進(jìn)行,減少了人工操作失誤的可能性,節(jié)省了操作時(shí)間。
2.4容災(zāi)系統(tǒng)的用途
容災(zāi)系統(tǒng)并不僅限于用在接管生產(chǎn)系統(tǒng)提供對外服務(wù)上,還可以用于其他場景,以避免資源的浪費(fèi)。筆者認(rèn)為,容災(zāi)系統(tǒng)至少還包括以下幾種用途:
(1)重大割接保障:在有重大割接時(shí),為保證在割接失敗時(shí)不會(huì)造成數(shù)據(jù)的異常,需要在割接前保留靜止數(shù)據(jù),以使得數(shù)據(jù)可以恢復(fù),此功能可由容災(zāi)系統(tǒng)支持;
。2)操作系統(tǒng)或數(shù)據(jù)庫升級(jí)時(shí)版本驗(yàn)證:在生產(chǎn)系統(tǒng)升級(jí)前先升級(jí)容災(zāi)系統(tǒng),由于容災(zāi)系統(tǒng)有與生產(chǎn)相同的環(huán)境,用容災(zāi)系統(tǒng)驗(yàn)證升級(jí)的可靠性也是最有效的。同理,其他一些有風(fēng)險(xiǎn)且需要提前測試的工作,都可考慮使用容災(zāi)系統(tǒng)進(jìn)行;
。3)月末出賬:依靠容災(zāi)系統(tǒng)、BCV(BusinessContinuanceVolume,業(yè)務(wù)連續(xù)性卷)系統(tǒng)等輔助環(huán)境,可有效緩解生產(chǎn)系統(tǒng)在月末出賬期間的巨大壓力,并能保證出賬期間業(yè)務(wù)的正常受理。
3結(jié)束語
BOSS容災(zāi)系統(tǒng)的建設(shè),并不能一蹴而就,而是一項(xiàng)長期、持久的工作。形成相應(yīng)的管理流程、制定高效的管理工具僅僅是一個(gè)開始;更多地,需要管理人員加深認(rèn)識(shí),在日常的維護(hù)工作中嚴(yán)格執(zhí)行,扎實(shí)、細(xì)致、全面地做好每一項(xiàng)工作。
參考文獻(xiàn):
[1]佟敏,李方村.關(guān)于BOSS異地容災(zāi)系統(tǒng)建設(shè)的討論[J].電信科學(xué),2004,20(7).
[2]佟敏.BOSS容災(zāi)系統(tǒng)數(shù)據(jù)復(fù)制技術(shù)及選擇[J].電信技術(shù),2006(5).
[3]胡國輝,陳丕海.BOSS容災(zāi)建設(shè)策略[J].電信技術(shù),2006(5).
轉(zhuǎn)載請注明來自:http://www.jinnzone.com/tongxinlw/25490.html