傳統(tǒng)的數(shù)據(jù)中心主要是依據(jù)功能進(jìn)行區(qū)域劃分,例如WEB、APP、DB,辦公區(qū)、業(yè)務(wù)區(qū)、內(nèi)聯(lián)區(qū)、外聯(lián)區(qū)等等。不同區(qū)域之間通過網(wǎng)關(guān)和安全設(shè)備互訪,保證不同區(qū)域的可靠性、安全性。同時(shí),不同區(qū)域由于具有不同的功能,因此需要相互訪問數(shù)據(jù)時(shí),只要終端之間能夠通信即可,并不一定要求通信雙方處于同一VLAN或二層網(wǎng)絡(luò)。
傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù),STP是二層網(wǎng)絡(luò)中非常重要的一種協(xié)議。用戶構(gòu)建網(wǎng)絡(luò)時(shí),為了保證可靠性,通常會(huì)采用冗余設(shè)備和冗余鏈路,這樣就不可避免的形成環(huán)路。而二層網(wǎng)絡(luò)處于同一個(gè)廣播域下,廣播報(bào)文在環(huán)路中會(huì)反復(fù)持續(xù)傳送,形成廣播風(fēng)暴,瞬間即可導(dǎo)致端口阻塞和設(shè)備癱瘓。因此,為了防止廣播風(fēng)暴,就必須防止形成環(huán)路。這樣,既要防止形成環(huán)路,又要保證可靠性,就只能將冗余設(shè)備和冗余鏈路變成備份設(shè)備和備份鏈路。即冗余的設(shè)備端口和鏈路在正常情況下被阻塞掉,不參與數(shù)據(jù)報(bào)文的轉(zhuǎn)發(fā)。只有當(dāng)前轉(zhuǎn)發(fā)的設(shè)備、端口、鏈路出現(xiàn)故障,導(dǎo)致網(wǎng)絡(luò)不通的時(shí)候,冗余的設(shè)備端口和鏈路才會(huì)被打開,使得網(wǎng)絡(luò)能夠恢復(fù)正常。實(shí)現(xiàn)這些自動(dòng)控制功能的就是STP(Spanning Tree Protocol,生成樹協(xié)議)。
由于STP的收斂性能等原因,一般情況下STP的網(wǎng)絡(luò)規(guī)模不會(huì)超過100臺(tái)交換機(jī)。同時(shí)由于STP需要阻塞掉冗余設(shè)備和鏈路,也降低了網(wǎng)絡(luò)資源的帶寬利用率。因此在實(shí)際網(wǎng)絡(luò)規(guī)劃時(shí),從轉(zhuǎn)發(fā)性能、利用率、可靠性等方面考慮,會(huì)盡可能控制STP網(wǎng)絡(luò)范圍。
大二層也是為了流通的要求
隨著數(shù)據(jù)大集中的發(fā)展和虛擬化技術(shù)的應(yīng)用,數(shù)據(jù)中心的規(guī)模與日俱增,不僅對(duì)二層網(wǎng)絡(luò)的區(qū)域范圍要求也越來越大,在需求和管理水平上也提出了新的挑戰(zhàn)。
數(shù)據(jù)中心區(qū)域規(guī)模和業(yè)務(wù)處理需求的增加,對(duì)于集群處理的應(yīng)用越來越多,集群內(nèi)的服務(wù)器需要在一個(gè)二層VLAN下。同時(shí),虛擬化技術(shù)的應(yīng)用,在帶來業(yè)務(wù)部署的便利性和靈活性基礎(chǔ)上,虛擬機(jī)的遷移問題也成為必須要考慮的問題。為了保證虛擬機(jī)承載業(yè)務(wù)的連續(xù)性,虛擬機(jī)遷移前后的IP地址不變,因此虛擬機(jī)的遷移范圍需要在同一個(gè)二層VLAN下。
反過來即,二層網(wǎng)絡(luò)規(guī)模有多大,虛擬機(jī)才能遷移有多遠(yuǎn)。
傳統(tǒng)的基于STP備份設(shè)備和鏈路方案已經(jīng)不能滿足數(shù)據(jù)中心規(guī)模、帶寬的需求,并且STP協(xié)議幾秒至幾分鐘的故障收斂時(shí)間,也不能滿足數(shù)據(jù)中心的可靠性要求。因此,需要能夠有新的技術(shù),在滿足二層網(wǎng)絡(luò)規(guī)模的同時(shí),也能夠充分利用冗余設(shè)備和鏈路,提升鏈路利用率,而且數(shù)據(jù)中心的故障收斂時(shí)間能夠降低到亞秒甚至毫秒級(jí)。
大二層需要有多大
既然二層網(wǎng)絡(luò)規(guī)模需要擴(kuò)大,那么大到什么程度合適?這取決于應(yīng)用場(chǎng)景和技術(shù)選擇。
1、數(shù)據(jù)中心內(nèi)
大二層首先需要解決的是數(shù)據(jù)中心內(nèi)部的網(wǎng)絡(luò)擴(kuò)展問題,通過大規(guī)模二層網(wǎng)絡(luò)和VLAN延伸,實(shí)現(xiàn)虛擬機(jī)在數(shù)據(jù)中心內(nèi)部的大范圍遷移。由于數(shù)據(jù)中心內(nèi)的大二層網(wǎng)絡(luò)都要覆蓋多個(gè)接入交換機(jī)和核心交換機(jī),主要有以下兩類技術(shù)。
虛擬交換機(jī)技術(shù)
虛擬交換機(jī)技術(shù)的出發(fā)點(diǎn)很簡(jiǎn)單,屬于工程派。既然二層網(wǎng)絡(luò)的核心是環(huán)路問題,而環(huán)路問題是隨著冗余設(shè)備和鏈路產(chǎn)生的,那么如果將相互冗余的兩臺(tái)或多臺(tái)設(shè)備、兩條或多條鏈路合并成一臺(tái)設(shè)備和一條鏈路,就可以回到之前的單設(shè)備、單鏈路情況,環(huán)路自然也就不存在了。尤其是交換機(jī)技術(shù)的發(fā)展,虛擬交換機(jī)從低端盒式設(shè)備到高端框式設(shè)備都已經(jīng)廣泛應(yīng)用,具備了相當(dāng)?shù)某墒於群头€(wěn)定度。因此,虛擬交換機(jī)技術(shù)成為目前應(yīng)用最廣的大二層解決方案。
虛擬交換機(jī)技術(shù)的代表是H3C公司的IRF、Cisco公司的VSS,其特點(diǎn)是只需要交換機(jī)軟件升級(jí)即可支持,應(yīng)用成本低,部署簡(jiǎn)單。目前這些技術(shù)都是各廠商獨(dú)立實(shí)現(xiàn)和完成的,只能同一廠商的相同系列產(chǎn)品之間才能實(shí)施虛擬化。同時(shí),由于高端框式交換機(jī)的性能、密度越來越高,對(duì)虛擬交換機(jī)的技術(shù)要求也越來越高,目前框式交換機(jī)的虛擬化密度最高為4:1.虛擬交換機(jī)的密度限制了二層網(wǎng)絡(luò)的規(guī)模大約在1萬~2萬臺(tái)服務(wù)器左右。
隧道技術(shù)
隧道技術(shù)屬于技術(shù)派,出發(fā)點(diǎn)是借船出海。二層網(wǎng)絡(luò)不能有環(huán)路,冗余鏈路必須要阻塞掉,但三層網(wǎng)絡(luò)顯然不存在這個(gè)問題,而且還可以做ECMP(等價(jià)鏈路),能否借用過來呢?
通過在二層報(bào)文前插入額外的幀頭,并且采用路由計(jì)算的方式控制整網(wǎng)數(shù)據(jù)的轉(zhuǎn)發(fā),不僅可以在冗余鏈路下防止廣播風(fēng)暴,而且可以做ECMP.這樣可以將二層網(wǎng)絡(luò)的規(guī)模擴(kuò)展到整張網(wǎng)絡(luò),而不會(huì)受核心交換機(jī)數(shù)量的限制。
隧道技術(shù)的代表是TRILL、SPB,都是通過借用IS-IS路由協(xié)議的計(jì)算和轉(zhuǎn)發(fā)模式,實(shí)現(xiàn)二層網(wǎng)絡(luò)的大規(guī)模擴(kuò)展。這些技術(shù)的特點(diǎn)是可以構(gòu)建比虛擬交換機(jī)技術(shù)更大的超大規(guī)模二層網(wǎng)絡(luò)(應(yīng)用于大規(guī)模集群計(jì)算),但尚未完全成熟,目前正在標(biāo)準(zhǔn)化過程中。同時(shí)傳統(tǒng)交換機(jī)不僅需要軟件升級(jí),還需要硬件支持。
2、跨數(shù)據(jù)中心
隨著數(shù)據(jù)中心多中心的部署,虛擬機(jī)的跨數(shù)據(jù)中心遷移、災(zāi)備,跨數(shù)據(jù)中心業(yè)務(wù)負(fù)載分擔(dān)等需求,使得二層網(wǎng)絡(luò)的擴(kuò)展不僅是在數(shù)據(jù)中心的邊界為止,還需要考慮跨越數(shù)據(jù)中心機(jī)房的區(qū)域,延伸到同城備份中心、遠(yuǎn)程災(zāi)備中心。
一般情況下,多數(shù)據(jù)中心之間的連接是通過路由連通的,天然是一個(gè)三層網(wǎng)絡(luò)。而要實(shí)現(xiàn)通過三層網(wǎng)絡(luò)連接的兩個(gè)二層網(wǎng)絡(luò)互通,就必須實(shí)現(xiàn)“L2 over L3”。
L2oL3技術(shù)也有許多種,例如傳統(tǒng)的VPLS(MPLS L2VPN)技術(shù),以及新興的Cisco OTV、H3C EVI技術(shù),都是借助隧道的方式,將二層數(shù)據(jù)報(bào)文封裝在三層報(bào)文中,跨越中間的三層網(wǎng)絡(luò),實(shí)現(xiàn)兩地二層數(shù)據(jù)的互通。這種隧道就像一個(gè)虛擬的橋,將多個(gè)數(shù)據(jù)中心的二層網(wǎng)絡(luò)貫穿在一起。
另外,也有部分虛擬化和軟件廠商提出了軟件的L2 over L3技術(shù)解決方案。例如VMware的VXLAN、微軟的NVGRE,在虛擬化層的vSwitch中將二層數(shù)據(jù)封裝在UDP、GRE報(bào)文中,在物理網(wǎng)絡(luò)拓?fù)渖蠘?gòu)建一層虛擬化網(wǎng)絡(luò)層,從而擺脫對(duì)網(wǎng)絡(luò)設(shè)備層的二層、三層限制。
這些技術(shù)由于性能、擴(kuò)展性等問題,也沒有得到廣泛的使用。
數(shù)據(jù)中心之間的互聯(lián)方式
網(wǎng)絡(luò)三層互聯(lián)。也稱為數(shù)據(jù)中心前端網(wǎng)絡(luò)互聯(lián),所謂"前端網(wǎng)絡(luò)"是指數(shù)據(jù)中心面向企業(yè)園區(qū)網(wǎng)或企業(yè)廣域網(wǎng)的出口。不同數(shù)據(jù)中心(主中心、災(zāi)備中心)的前端網(wǎng)絡(luò)通過IP技術(shù)實(shí)現(xiàn)互聯(lián),園區(qū)或分支的客戶端通過前端網(wǎng)絡(luò)訪問各數(shù)據(jù)中心。當(dāng)主數(shù)據(jù)中心發(fā)生災(zāi)難時(shí),前端網(wǎng)絡(luò)將實(shí)現(xiàn)快速收斂,客戶端通過訪問災(zāi)備中心以保障業(yè)務(wù)連續(xù)性;
網(wǎng)絡(luò)二層互聯(lián)。也稱為數(shù)據(jù)中心服務(wù)器網(wǎng)絡(luò)互聯(lián)。在不同的數(shù)據(jù)中心服務(wù)器網(wǎng)絡(luò)接入層,構(gòu)建一個(gè)跨數(shù)據(jù)中心的大二層網(wǎng)(VLAN),以滿足服務(wù)器集群或虛擬機(jī)動(dòng)態(tài)遷移等場(chǎng)景對(duì)二層網(wǎng)絡(luò)接入的需求;
SAN互聯(lián)。
也稱為后端存儲(chǔ)網(wǎng)絡(luò)互聯(lián)。借助傳輸技術(shù)(DWDM、SDH等)實(shí)現(xiàn)主中心和災(zāi)備中心間磁盤陣列的數(shù)據(jù)復(fù)制。
數(shù)據(jù)中心二層互聯(lián)的業(yè)務(wù)需求
服務(wù)器高可用集群
服務(wù)器集群(Cluster),是借助集群軟件將網(wǎng)絡(luò)上的多臺(tái)服務(wù)器關(guān)聯(lián)在一起,提供一致的服務(wù),對(duì)外表現(xiàn)為一臺(tái)邏輯服務(wù)器。多數(shù)廠商(HP、IBM、微軟、Veritas等)的集群軟件需要各服務(wù)器間采用二層網(wǎng)絡(luò)互聯(lián)。將集群中的服務(wù)器部署于不同數(shù)據(jù)中心,可實(shí)現(xiàn)跨數(shù)據(jù)中心的應(yīng)用系統(tǒng)容災(zāi)。
服務(wù)器搬遷和虛擬機(jī)動(dòng)態(tài)遷移
數(shù)據(jù)中心進(jìn)行擴(kuò)建或搬遷時(shí),需要將物理服務(wù)器從一個(gè)數(shù)據(jù)中心遷至另一個(gè)數(shù)據(jù)中心。
在此過程中,考慮以下兩個(gè)因素,需要在數(shù)據(jù)中心間構(gòu)建二層互聯(lián)網(wǎng)絡(luò):
當(dāng)服務(wù)器被遷至新機(jī)房,如未構(gòu)建新老中心間的二層互聯(lián)網(wǎng)絡(luò),則面臨重新規(guī)劃新中心服務(wù)器IP地址的問題,同時(shí)還需修改DNS,或修改客戶端應(yīng)用程序配置的服務(wù)器IP.因此,構(gòu)建跨中心的二層互聯(lián)網(wǎng)絡(luò)可保留被遷移服務(wù)器的IP地址,進(jìn)而簡(jiǎn)化遷移過程;
在服務(wù)器搬遷期間,經(jīng)常在給定的時(shí)間內(nèi),只能將服務(wù)器群的一部分服務(wù)器遷至新中心,為保證業(yè)務(wù)連續(xù)性,需建立跨中心的服務(wù)器集群,構(gòu)建跨越中心的二層互聯(lián)網(wǎng)絡(luò)可實(shí)現(xiàn)服務(wù)器平滑遷移。
與服務(wù)器搬遷類似的情況是"虛擬機(jī)遷移".當(dāng)前,一些服務(wù)器虛擬化軟件可實(shí)現(xiàn)在兩臺(tái)虛擬化的物理服務(wù)器之間對(duì)虛擬機(jī)做動(dòng)態(tài)遷移。遷移至另一中心的虛擬機(jī)不僅保留原有IP地址,而且還保持遷移前的運(yùn)行狀態(tài)(如TCP會(huì)話狀態(tài)),所以必須將涉及虛擬機(jī)遷移的物理服務(wù)器接入同一個(gè)二層網(wǎng)絡(luò)(虛擬機(jī)在遷移前后的網(wǎng)關(guān)不變),這種應(yīng)用場(chǎng)景要求構(gòu)建跨中心的二層互聯(lián)網(wǎng)絡(luò)。
數(shù)據(jù)中心二層互聯(lián)設(shè)計(jì)要點(diǎn)
1、前提要素——現(xiàn)網(wǎng)狀態(tài)
選擇數(shù)據(jù)中心二層互聯(lián)方案的前提要素是明確用戶在多個(gè)數(shù)據(jù)中心之間具有哪些網(wǎng)絡(luò)資源。網(wǎng)絡(luò)資源的不同直接決定了用戶將采用何種組網(wǎng)方案:
運(yùn)營(yíng)商、大型互聯(lián)網(wǎng)企業(yè):裸光纖或DWDM傳輸資源,對(duì)應(yīng)RRPP環(huán)網(wǎng)方案或HUB-SPOKE方案;
運(yùn)營(yíng)商、大企業(yè)、金融、政府機(jī)構(gòu):MPLS網(wǎng)絡(luò),對(duì)應(yīng)VPLS組網(wǎng)方案;
中小企業(yè)客戶:IP網(wǎng)絡(luò),對(duì)應(yīng)VPLSoverGRE組網(wǎng)方案
2.核心要素——性能
時(shí)延
數(shù)據(jù)中心之間二層互聯(lián)是為了實(shí)現(xiàn)虛擬機(jī)的異地調(diào)度和集群異地應(yīng)用,為了實(shí)現(xiàn)這一點(diǎn),必須滿足虛擬機(jī)VMotion和集群存儲(chǔ)異地訪問的時(shí)延要求。第一個(gè)限制是VMotion同步會(huì)話距離。第二個(gè)要求是存儲(chǔ)網(wǎng)絡(luò)。DC之間的存儲(chǔ)必須實(shí)現(xiàn)同步訪問或是鏡像訪問。
需要注意的是,在VPLS或是IP網(wǎng)絡(luò)環(huán)境中,由于網(wǎng)絡(luò)中存在大量復(fù)雜的應(yīng)用,所以必須通過部署全網(wǎng)QoS來保證DCI互聯(lián)數(shù)據(jù)流的服務(wù)質(zhì)量。流量環(huán)境越復(fù)雜,則QoS配置工作量越大,時(shí)延指標(biāo)越難以滿足。VPLS網(wǎng)絡(luò)通常應(yīng)用于企業(yè)或是行業(yè)的專用業(yè)務(wù),流量環(huán)境相對(duì)于IP網(wǎng)絡(luò)較簡(jiǎn)單,所以在部署QoS方面有一定優(yōu)勢(shì)。
帶寬
數(shù)據(jù)中心互聯(lián)的核心需求之一就是保證虛擬機(jī)跨DC的遷移。vSphere5.0之前的版本,VMotion對(duì)于遷移鏈路的帶寬有明確的要求-帶寬不小于622M;vSphere5.0的版本,VMotion對(duì)于遷移鏈路的帶寬不小于250M.
從帶寬資源的分配情況來看,裸光纖或DWDM的帶寬資源最為充足,VPLS和IP網(wǎng)絡(luò)的帶寬資源相對(duì)緊張,必須部署全網(wǎng)端到端的QoS優(yōu)先級(jí)來保證DCI業(yè)務(wù)流量的帶寬要求。
3、關(guān)鍵要素——HA
數(shù)據(jù)中心二層互聯(lián)的關(guān)鍵因素就是如何提高可用性。提高HA的一個(gè)最有效的方式就是設(shè)計(jì)備份鏈路、備份節(jié)點(diǎn)。如果結(jié)合提高互聯(lián)帶寬的需求,則建議設(shè)計(jì)負(fù)載分擔(dān)的互聯(lián)路徑,在提高互聯(lián)帶寬的同時(shí),也能夠保證系統(tǒng)異常時(shí)能夠?qū)崿F(xiàn)業(yè)務(wù)的快速收斂,提高HA指標(biāo)。
以DWDM網(wǎng)絡(luò)為例,建議利用IRF實(shí)現(xiàn)DCI鏈路的高HA和鏈路負(fù)載分擔(dān)設(shè)計(jì)方案。
在裸光纖或是DWDM互聯(lián)組網(wǎng)方案中,DCI互聯(lián)的兩端PE設(shè)備必須支持IRF,將PE之間的兩條(或多條)鏈路通過聚合(LACP)技術(shù)形成一條邏輯鏈路,會(huì)極大的簡(jiǎn)化DCI的組網(wǎng)拓?fù)?。同時(shí),這兩條HA鏈路的帶寬會(huì)得到100%的利用,達(dá)到1:1的負(fù)載分擔(dān)效果。
數(shù)據(jù)中心二層互聯(lián)方案設(shè)計(jì)
1、基于裸光纖或DWDM線路的二層互聯(lián)
裸光纖或DWDM二層互聯(lián)方案需要用戶在現(xiàn)網(wǎng)中擁有光纖或傳輸資源,對(duì)用戶要求較高,但從使用的角度來看,裸光纖或DWDM方案的性能是最優(yōu)的。
基于裸光纖或DWDM線路的二層互聯(lián)方案有兩種選擇:HUB-SPOKE方案和RRPP環(huán)網(wǎng)方案。前者的優(yōu)點(diǎn)是基于最短路徑轉(zhuǎn)發(fā),所以轉(zhuǎn)發(fā)效率高;后者的優(yōu)點(diǎn)則是環(huán)網(wǎng)天然的轉(zhuǎn)發(fā)路徑冗余設(shè)計(jì),所以HA性能較高。
Hub-Spoke組網(wǎng)方案
通過裸光纖或是DWDM將多個(gè)(例如4個(gè))數(shù)據(jù)中心互聯(lián)。為了方便擴(kuò)展更多的數(shù)據(jù)中心節(jié)點(diǎn),一個(gè)最常用的方案就是采用HUB-SPOKE組網(wǎng)模型,即通過一個(gè)核心節(jié)點(diǎn)與各數(shù)據(jù)中心的匯聚層互聯(lián)。在邏輯結(jié)構(gòu)上,多個(gè)中心與核心節(jié)點(diǎn)構(gòu)成了一個(gè)Hub-Spoke的星形拓?fù)?,其中核心?jié)點(diǎn)為HUB,各中心匯聚層為Spoke.
在Hub-Spoke組網(wǎng)環(huán)境中,核心節(jié)點(diǎn)是最重要的,關(guān)系到全網(wǎng)是否能正常運(yùn)轉(zhuǎn),是保證多數(shù)據(jù)中心HA的關(guān)鍵因素。如何提高核心節(jié)點(diǎn)的HA性能?一個(gè)最重要的設(shè)計(jì)理念就是在核心節(jié)點(diǎn)應(yīng)用IRF技術(shù),將兩臺(tái)設(shè)備通過IRF技術(shù)形成一臺(tái)設(shè)備,將核心設(shè)備故障異常的收斂時(shí)間從幾十秒降低到毫秒級(jí),也就是說可以將系統(tǒng)的HA性能提高將近兩個(gè)量級(jí)。這一點(diǎn)對(duì)于Hub-Spoke組網(wǎng)方案是非常重要的。