數(shù)據(jù)中心網(wǎng)絡(luò)是由成千上萬臺設(shè)備連接在一起組成的。這么多設(shè)備不出一點(diǎn)問題是不可能的,所以數(shù)據(jù)中心都有自己的網(wǎng)絡(luò)運(yùn)維團(tuán)隊。不過,很多時候出現(xiàn)網(wǎng)絡(luò)故障時,很多設(shè)備無法再通過網(wǎng)絡(luò)登陸,導(dǎo)致短時間不能定位問題并恢復(fù)業(yè)務(wù),尤其是無人值守的數(shù)據(jù)中心,運(yùn)維的人員根本來不及去現(xiàn)場,這樣網(wǎng)絡(luò)中斷時間可能達(dá)到小時級?,F(xiàn)在,網(wǎng)絡(luò)中斷時長已經(jīng)成為考核數(shù)據(jù)中心的一項必選指標(biāo),很多數(shù)據(jù)中心都要求全年無故障,如此除了建設(shè)完備的冗余網(wǎng)絡(luò)之外,還要解決故障時設(shè)備無法及時登錄的問題。
其實,任何一臺網(wǎng)絡(luò)設(shè)備都設(shè)計了管理口、串口、調(diào)試口,這些端口獨(dú)立于轉(zhuǎn)發(fā)層面,即使設(shè)備網(wǎng)絡(luò)轉(zhuǎn)發(fā)出了問題,這些端口依然可以正常使用,這樣就能在網(wǎng)絡(luò)故障時檢查和分析設(shè)備的運(yùn)行狀態(tài),快速定位問題。除非設(shè)備的CPU出了故障,或者軟件徹底跑飛,這樣影響到了管理口,這時也只能將設(shè)備隔離或重啟設(shè)備來快速恢復(fù)業(yè)務(wù)。這些端口只能到機(jī)房接上線纜才能登錄,也是非常不方便的,對于大型數(shù)據(jù)中心,機(jī)房分散到全國各地,網(wǎng)絡(luò)工程師還沒有機(jī)房多,出了問題根本無法保證人在現(xiàn)場,所以很多人傾向于建設(shè)一套OOB網(wǎng)絡(luò)。
OOB(Out Of Band)帶外網(wǎng)絡(luò),是指通過一套與任何數(shù)據(jù)轉(zhuǎn)發(fā)網(wǎng)絡(luò)都沒有關(guān)聯(lián)的獨(dú)立網(wǎng)絡(luò),網(wǎng)絡(luò)控制中心可以連接到各個服務(wù)器或任意一臺網(wǎng)絡(luò)設(shè)備的管理口或串口,當(dāng)數(shù)據(jù)轉(zhuǎn)發(fā)網(wǎng)絡(luò)出問題時,OOB網(wǎng)絡(luò)不受影響,這樣就可以通過OOB訪問設(shè)備。有了OOB,無疑是給數(shù)據(jù)中心網(wǎng)絡(luò)一根救命稻草,在關(guān)鍵時候能起到大作用。OOB的作用不止于此,將設(shè)備管理和數(shù)據(jù)轉(zhuǎn)發(fā)層面分開,正是未來網(wǎng)絡(luò)發(fā)展的大趨勢,OOB也屬于這方面的技術(shù)之一;OOB僅跑管理流量,SNMP、監(jiān)控等網(wǎng)絡(luò)功能都可以放到OOB,避免受轉(zhuǎn)發(fā)數(shù)據(jù)的影響;OOB網(wǎng)絡(luò)架構(gòu)簡單、流量也不大,不涉及復(fù)雜網(wǎng)絡(luò)協(xié)議,只要二三層互通即可,所以幾乎不出問題,可靠性非常高,OOB不像數(shù)據(jù)網(wǎng)絡(luò)要經(jīng)常因為業(yè)務(wù)調(diào)整網(wǎng)絡(luò),OOB只要保證互通即可,OOB可以采用一些價格便宜的低性能網(wǎng)絡(luò)設(shè)備實現(xiàn)互聯(lián)即可,建設(shè)和維護(hù)OOB網(wǎng)絡(luò),對于數(shù)據(jù)中心成本并不高,很多數(shù)據(jù)中心都開始建設(shè)OOB。OOB將所有網(wǎng)絡(luò)設(shè)備集中管理起來,方便研究整個網(wǎng)絡(luò)的設(shè)備運(yùn)行行為,找出不足,可提升網(wǎng)絡(luò)運(yùn)維的效率。
不過,任何事情都有兩面性,建設(shè)OOB這件事兒也有弊端。首先,OOB也是通過互聯(lián)網(wǎng)連接起來,如果是運(yùn)營商網(wǎng)絡(luò)故障,比如傳輸設(shè)備中斷,OOB和數(shù)據(jù)網(wǎng)絡(luò)都中斷,有OOB也無濟(jì)于事,OOB的控制范圍都是在數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò),外部就不受其控制了;其次,網(wǎng)絡(luò)設(shè)備的管理口、串口、調(diào)試口作用是不同的,OOB一般連接的是管理口,不可能將三個口都串接到OOB中,這樣一旦需要串口(完全獨(dú)立與數(shù)據(jù)轉(zhuǎn)發(fā)和管理口,幾乎不受網(wǎng)絡(luò)影響,除非串口本身壞了或者設(shè)備CPU故障)和調(diào)試口(雖然幾乎很少用到,主要是設(shè)備開發(fā)過程中使用,但偶爾定位問題使用也非常有效),還是需要人員到機(jī)房現(xiàn)場才行;第三,OOB的網(wǎng)絡(luò)一旦出問題,只能現(xiàn)場處理,無法再通過網(wǎng)絡(luò)去訪問OOB網(wǎng)絡(luò)中的設(shè)備,所以O(shè)OB網(wǎng)絡(luò)的運(yùn)維成本不低,盡量要確保OOB不出問題,網(wǎng)絡(luò)越簡單越好;第四,OOB網(wǎng)絡(luò)里都是設(shè)備的管理數(shù)據(jù),重要性很高,尤其是各個設(shè)備的登陸密碼和方式,一旦被人竊取,相當(dāng)于將整個網(wǎng)絡(luò)向人敞開,非常不安全。OOB網(wǎng)絡(luò)中設(shè)備大多防攻擊能力很差,若部署額外的安全設(shè)備,OOB的投入成本就會變高,這時就要在安全性和可靠性方面上做取舍??傊?,OOB也不能解決一切網(wǎng)絡(luò)問題,認(rèn)為有了OOB,網(wǎng)絡(luò)運(yùn)行就能高枕無憂了是不對的,OOB會帶來新的問題,只不過從可靠性角度來看,OOB的確會增強(qiáng)網(wǎng)絡(luò)安全性,尤其是在網(wǎng)絡(luò)故障時,OOB能起到大作用,是網(wǎng)絡(luò)的救命稻草。
在數(shù)據(jù)中心網(wǎng)絡(luò)中建設(shè)OOB已經(jīng)成為必然趨勢,尤其是高標(biāo)準(zhǔn)數(shù)據(jù)中心,必須有這樣一套OOB網(wǎng)絡(luò)。OOB的網(wǎng)絡(luò)設(shè)備可以選擇轉(zhuǎn)發(fā)性能低一些,網(wǎng)絡(luò)協(xié)議單一的傻瓜式設(shè)備就可以,盡可能地降低建設(shè)成本。同樣OOB也要求是7*24小時的高可用性,隨時隨地可以訪問OOB,試想如果突然無法通過OOB訪問數(shù)據(jù)中心的網(wǎng)絡(luò)設(shè)備,就好比人突然失明一樣,雖然還沒遇到危險,但也是一件非常恐怖的事兒,所以一定要確保OOB網(wǎng)絡(luò)的可靠性。將OOB的網(wǎng)絡(luò)建設(shè)簡單就是這樣的目的,減少故障風(fēng)險點(diǎn)。
數(shù)據(jù)中心有了這根救命稻草OOB,也不要掉以輕心,OOB并不能解決任何網(wǎng)絡(luò)問題。當(dāng)某些設(shè)備CPU掛死,兩個轉(zhuǎn)發(fā)通道都不能轉(zhuǎn)發(fā)時,有OOB也無濟(jì)于事,如果這時OOB還能連接串口,又給了處理故障的一線機(jī)會,通過串口采集必要信息,并對設(shè)備執(zhí)行重啟去恢復(fù)業(yè)務(wù),如果連串口都不響應(yīng)了,恐怕只能對設(shè)備進(jìn)行現(xiàn)場斷電、設(shè)備下線處理了。所以,OOB只不過是在網(wǎng)絡(luò)中斷時,提供了這樣一個快捷通道,給了數(shù)據(jù)中心網(wǎng)絡(luò)一根救命稻草,至于關(guān)鍵時候能否救命就要看造化了。這就好比是公路上的應(yīng)急通道,公路上出現(xiàn)了交通事故,交警可以通過應(yīng)急通道快速抵達(dá)事故現(xiàn)場,緊急車輛也可以通過應(yīng)急通道通過。不過,我們更多時候看到的是,一旦出了交通事故,應(yīng)急車道就會被普通車輛占滿,導(dǎo)致事故處理時間更久。數(shù)據(jù)中心的OOB網(wǎng)絡(luò)一定要完全獨(dú)立于數(shù)據(jù)轉(zhuǎn)發(fā)網(wǎng)絡(luò),兩者完全獨(dú)立,互不影響,這樣才能避免出現(xiàn)象公路上應(yīng)急通道被堵的情況。