超大規(guī)模云網(wǎng)絡(luò)數(shù)據(jù)中心創(chuàng)新

馬紹文
對(duì)于私有云混合云和中小型超算數(shù)據(jù)中心,Spine/Super Spine可以采用12.8T芯片 64x200GE/32x400GE端口扇出,就可以構(gòu)建2000個(gè)機(jī)柜的200G/400G Fabric。不需要等25.6T芯片推出市場(chǎng)。

1、云網(wǎng)絡(luò)趨勢(shì)和流量變化

隨著云計(jì)算的發(fā)展,Internet 從最早承載海量文本/圖片/視頻,演變到高清直播占據(jù) Internet 主要流量(Netfliex/AWS, Youtube/Google, Facebook Live/TickTok)。隨著 AR 相機(jī) 和社交VR(Social VR)的等新應(yīng)用的到來(lái),互聯(lián)網(wǎng)的流量還會(huì)持續(xù)高速增長(zhǎng)。Google的一篇論文講,每9個(gè)月Google數(shù)據(jù)中心流量翻倍,每5年數(shù)據(jù)中心流量增長(zhǎng)100倍。大部分的流量增長(zhǎng)并沒(méi)有體現(xiàn)在運(yùn)營(yíng)商SP的網(wǎng)絡(luò)中,而是主要集中在OTT網(wǎng)絡(luò)中。Google/Facebook/AWS/Microsoft/Apple 為代表五大OTT都構(gòu)建了全球規(guī)模的骨干網(wǎng),很多人也稱之為『Private Internet』。OTT的數(shù)據(jù)中心/WAN/PoP流量快速增長(zhǎng),帶來(lái)OTT網(wǎng)絡(luò)架構(gòu)的快速迭代和升級(jí)。傳統(tǒng)的設(shè)備形態(tài)和網(wǎng)管工具 無(wú)法適應(yīng)流量和業(yè)務(wù)的快速發(fā)展。OTT紛紛采用自研設(shè)備,引入SDN 來(lái)管理全球骨干網(wǎng)。

伴隨云網(wǎng)絡(luò)流量的極速增長(zhǎng),云網(wǎng)絡(luò)的負(fù)載也發(fā)生了天翻地覆的變化。30年前發(fā)明的傳統(tǒng)TCP/IP,已經(jīng)不能適應(yīng)大規(guī)模視頻和AI發(fā)展的需求。

南北向流量:從超大規(guī)模數(shù)據(jù)中心,邊緣POP點(diǎn)到終端用戶的App/Browser,很多云公司已經(jīng)大規(guī)模部署QUIC。引入QUIC能帶來(lái)更優(yōu)的擁塞流控,Multi-Streaming 控制,更安全的報(bào)文全加密,并且接入SDN(Google Espresso)進(jìn)行每用戶全局調(diào)控。Google發(fā)表的白皮書提到自從2014年開(kāi)始大規(guī)模部署,到2018年底,35%的 Google南北向流量(大概 10%的 Internet 流量)已經(jīng)承載在QUIC協(xié)議上。其他主流云公司例如微軟,F(xiàn)acebook,Apple 和 Akamai 等也紛紛采用QUIC。

東西向流量:AI/ML計(jì)算需要Tensor flow運(yùn)行在成百上千個(gè)GPU節(jié)點(diǎn),需要分布在多個(gè)機(jī)柜之 間的服務(wù)器傳送大量數(shù)據(jù)和中間計(jì)算結(jié)果。多個(gè)GPU和高端存儲(chǔ)之間缺省采用新型的 RoCEv2 來(lái)提供更高的網(wǎng)絡(luò)性能和避免擁塞。

數(shù)據(jù)中心之間的大規(guī)模備份和都越來(lái)越多的采用TCP-BBR(Bottleneck Bandwidth and Round-trip propagation)擁塞控制算法來(lái)應(yīng)對(duì) Internet 丟包,提供 DC 之間高達(dá)幾個(gè)Tbps的吞吐。在部署了TCP BRR之后,B4(Google DCI)網(wǎng)絡(luò)性能提高了 2~20 倍。云公司,不光把TCP-BBR 用在自家數(shù)據(jù)中心互聯(lián),同時(shí)還提供給所有的云客戶。比如客戶在 Google GCP上創(chuàng)建VM,服務(wù)器側(cè)自動(dòng)采用最新的支持TCP BRR內(nèi)核。著名的Amazon CloudFront,CloudFlare等公司也紛紛采用TCP BRR。

數(shù)據(jù)中心東西向和南北向負(fù)載和流量的變化,越來(lái)越依賴服務(wù)器智能網(wǎng)卡支持 QUIC/TCP BRR 和RoCEv2 等更多新型協(xié)議和技術(shù)和CPU負(fù)載卸載(offload)。

AI/ML 的蓬勃發(fā)展,異構(gòu)計(jì)算(Heterogeneous Computing)在數(shù)據(jù)中心引入了各種多核心 CPU 處 理器、GPU 圖形核心、TPU(Tensor Flow)、DSP、ASIC、FPGA 等融合處理器多種設(shè)備的架 構(gòu)。傳統(tǒng)的以 CPU 為中心的數(shù)據(jù)中心設(shè)計(jì)理念已經(jīng)不能滿足大規(guī)模 GPU 集群,大容量高速 SSD 海量存儲(chǔ)器和特殊 FPGA 加速的要求。2019 年很多公司提出來(lái) IPU(I/O Processing Unit)/DPU(Data Processing Unit)等以 SmartNic 為中心的全新數(shù)據(jù)中心設(shè)計(jì)思路。相關(guān)理念也在云公司 比如微軟 Auzre/亞馬遜 AWS 的云網(wǎng)絡(luò)中得以實(shí)現(xiàn)。

以 Smartnic 為中心的數(shù)據(jù)中心架構(gòu)設(shè)計(jì),中心思想就是 Offload CPU 的功能。傳統(tǒng) GPU, SSD, FPGA 數(shù)據(jù)跨服務(wù)器通訊都需要通過(guò) CPU 中轉(zhuǎn),CPU 成為網(wǎng)絡(luò)發(fā)展的瓶頸。引入IPU之后,傳統(tǒng)的GPU和SSD可以更有效的通過(guò)RoCEv2和NVMEoF來(lái)提供更高帶寬和低延時(shí)業(yè)務(wù)。

IPU提供類似AWS Nitro的全方位 SDN 網(wǎng)絡(luò),SDS存儲(chǔ)和SDSec安全支持,并且大部分功能可以卸載到網(wǎng)卡,支持接近裸機(jī)性能的全新云網(wǎng)架構(gòu)。

2、數(shù)據(jù)中心 Underlay 網(wǎng)絡(luò)架構(gòu)

2.1 Scale Up 和 Scale Out 網(wǎng)絡(luò)

傳統(tǒng)大規(guī)模數(shù)據(jù)中心從4-POST(2004 年設(shè)計(jì))演變而來(lái),Google 最早采用4個(gè)大型交換機(jī)(路由器,Cluster Router)來(lái)連接 512 個(gè) TOR 機(jī)柜交換機(jī),每個(gè) Cluster Router16 槽位 x 32 端口能提供512個(gè)1GE到TOR(Top Of Rack 機(jī)柜頂端交換機(jī))。每個(gè)TOR接到4個(gè)Cluster Router 提供多上行冗余。

隨著超大規(guī)模數(shù)據(jù)中心計(jì)算能力和帶寬需求越來(lái)越高,一個(gè)數(shù)據(jù)中心機(jī)房里的 TOR 交換機(jī)數(shù)量可達(dá)3000~5000,單個(gè)設(shè)備很難支持?jǐn)?shù)千個(gè)10GE/25GE/100GE接口。而且大型設(shè)備的開(kāi)發(fā)周期很長(zhǎng),數(shù)量很少(一個(gè)數(shù)據(jù)中心只需4個(gè)),成本很高。大型 OTT紛紛開(kāi)始在其數(shù)據(jù)中心中采用CLOS架構(gòu),利用數(shù)量眾多,小規(guī)模的基本交換矩陣(CrossBar)來(lái)構(gòu)建超大規(guī)模網(wǎng)絡(luò)Fabric。

CLOS 網(wǎng)絡(luò)架構(gòu)的級(jí)數(shù)Stage,是基于路徑上經(jīng)過(guò)多少跳。比如上圖中的3-stage 是最簡(jiǎn)單的,Leaf/Spine兩層,但是從一個(gè)服務(wù)器到另一個(gè)機(jī)柜的服務(wù)器,經(jīng)過(guò)三跳。以此類推,5-stage 是三層,9-stage是四層架構(gòu)。

最早的 CLOS 架構(gòu)應(yīng)用于構(gòu)建大型多板卡路由器和交換機(jī)。解決單芯片容量不足問(wèn)題。

2014 年,業(yè)界最高密度的單交換芯片僅能提供3.2Tbps(32x100GbE)。Facebook 想要建設(shè)超大規(guī)模數(shù)據(jù)中心,一個(gè)機(jī)房要求能夠容納超過(guò)5千個(gè)機(jī)柜的超大型交換矩陣。架構(gòu)師決定采用128端口扇出的盒子作為5級(jí)CLOS的Spine/Super Spine。BackPack(背包)架構(gòu)師采用了無(wú)阻塞的 Spine/Leaf 架構(gòu)來(lái)構(gòu)造一個(gè)7RU的盒子。其中4個(gè)3.2T芯片作為交換矩陣(spine),另外8個(gè)3.2T芯片分布到4個(gè)業(yè)務(wù)板卡,每個(gè)板卡上有兩個(gè)3.2T芯片(每個(gè)芯片 1.6T 到用戶,1.6T 到 Fabric/Spine),總共可以提供16x8=128x100GE用戶接口。

對(duì)于128x100GE Fabric,可以采用 7RU 的 BackPack 設(shè)計(jì),也可以采用 12 個(gè) 1RU 的 3.2T (4+8 Spine/Leaf) 設(shè)計(jì)。BackPack的優(yōu)缺點(diǎn)如下:

128端口扇出,無(wú)阻塞,空間占比更優(yōu)(7RU vs 12RU),板卡級(jí)別共享風(fēng)扇/電源模塊。

節(jié)省 Pizzabox 盒子之間互聯(lián)的光模塊/Cable,采用低價(jià)的SerDes 進(jìn)行板卡級(jí)別互聯(lián)。

由于 Backpack 的多顆 Spine/Leaf 芯片只能在同一個(gè)機(jī)柜,導(dǎo)致到 TOR 交換機(jī)距離過(guò)長(zhǎng),只能采用更為昂貴的CWDM4光模塊。如果采用12個(gè)Spine/Leaf 盒子分布到多個(gè)樓層的機(jī)柜可以采用更便宜的 AOC/SR 光模塊達(dá)到同樣的效果,總體兩種方案 TCO 相差不大。

BackPack 跟傳統(tǒng)設(shè)備提供商C/J的路由器交換機(jī)設(shè)計(jì)理念完全不一樣。每個(gè)板卡和交換矩陣都有 CPU,都運(yùn)行BGP路由協(xié)議。板卡之間的MAC/IP Prefix交換也通過(guò)BGP。單個(gè)BackPack設(shè)備,有多個(gè)BGP Speaker節(jié)點(diǎn)。屬于很奇葩的設(shè)計(jì)。

Facebook 在 2014 年開(kāi)始設(shè)計(jì)了 F4 數(shù)據(jù)中心 Fabric 架構(gòu),采用128端口扇出的 Backpack 盒子作為Spine/SuperSpine。如下圖立方體(Cubic)設(shè)計(jì)。

F4 秉承 4-Post 的設(shè)計(jì)理念,把 4 Post 的四個(gè)大路由器替換成四個(gè) Fabric 平面。用 128 端口的Leaf/Spine Fabric 來(lái)代替超大型單臺(tái)多槽位交換機(jī)實(shí)現(xiàn) Scale Out 設(shè)計(jì)。

RSW(Rack Switch):每個(gè)POD 48臺(tái)TOR交換機(jī)匯聚到4臺(tái) Fabric Switches 分屬四個(gè)不同的 平面;POD 可以橫向擴(kuò)展 Scale Out。最多 128 個(gè) POD(包括 Edge POD)。

FSW(Fabric Switch):每個(gè)平面最多128 臺(tái) FSW ,4臺(tái)Fabric 交換機(jī)分別上聯(lián)到四個(gè)平面的Spine Switches,Spine平面是完全隔離的。

SSW(Spine Switch):48 臺(tái)SSW和最多128臺(tái) FSW組成一個(gè)平面。匯聚所有的 POD 流量。

ESW:Edge switch POD(淡黃色部分)里的Edge Switch 和 SSW 互聯(lián),可以彈性擴(kuò)展連往其他 DC,或者去往 Backbone 和互聯(lián)網(wǎng)的流量

超大規(guī)模:每個(gè) SSW 有 128 個(gè)端口,所以最多接 128 個(gè) FSW,同時(shí)還有至少四個(gè)FSW作為Edge switch,所以一個(gè)數(shù)據(jù)中心平面可以支持大概120個(gè)FSW。也就是120個(gè)POD。所以一個(gè)F4 數(shù)據(jù)中心可以最多支持:120x48=5760 RSW,也就是大概 6000 個(gè)機(jī)柜。

各大云公司采用的架構(gòu)不太一樣,比如 Facebook F4 fabric 采用 BackPack 來(lái)構(gòu)建 5-stage (如果算Chip,每個(gè)Backpack 3 stage CLOS,總共 9-Stage Chip) CLOS 架構(gòu)。

其實(shí)Facebook的立方體架構(gòu)就是普通的5級(jí)CLOS。上圖中可以看到,如果把右面的立方體四個(gè)平面展開(kāi)(每個(gè)平面就是原本 4-Postd 的一個(gè)大交換機(jī)),就是左下圖基于 Fabric 的設(shè)計(jì),48 Spine SW+128個(gè)Fabric Switches屬于同一個(gè)平面,每個(gè)Fabric Switches接一個(gè)POD里的48個(gè)Rack Switch。然后左下圖的Fabric Design中Fabric Switch 移動(dòng)到相應(yīng)的128個(gè)POD,就是左上圖的基于POD的設(shè)計(jì)。所以可以看出來(lái)雖然三張圖畫法不同,設(shè)計(jì)理念不同,但是殊途同歸,都是 5 Stage-CLOS 來(lái)支持 5~6千機(jī)柜的設(shè)計(jì)。

Google在2016年揭曉了基于Trident芯片 16x40GE 設(shè)計(jì)的 Jupiter 40G Fabric 數(shù)據(jù)中心架構(gòu)。實(shí)際當(dāng)年應(yīng)該已經(jīng)規(guī)模部署 32x100GE 架構(gòu)(Google一般揭秘2-5年之前的前代技術(shù))。Jupiter 架構(gòu)設(shè)計(jì)中,采用四個(gè)Trident芯片來(lái)構(gòu)建Centauri(半人馬),四個(gè)Centauri組成一個(gè)Middle Block,6個(gè)Centauri 組成一個(gè)Spine Block。從芯片的角度其實(shí)是5層 9-Stage CLOS架構(gòu)。

2.2 Fabric as a Switch, Switches as a Fabric

到了 2019 年,各個(gè)主流芯片公司紛紛推出 12.8Tbps 的新一代芯片。對(duì)比2014年推出的3.2T芯 片,容量提高了4倍。按照同樣Backpack的思路,可以基于4+8個(gè)12.8T芯片構(gòu)建 128x400GE 新型盒子。實(shí)際上由于400G的光模塊在2019年技術(shù)遠(yuǎn)沒(méi)有成熟,大規(guī)模400G Fabric部署不具備性價(jià)比。

Switch as a Fabric:?jiǎn)晤w大容量芯片盒子可以替代之前的一個(gè)小容量芯片構(gòu)建的交換矩陣Fabric。Facebook優(yōu)化了Backpack,采用一顆單一12.8Tbps芯片來(lái)取代12顆 3.2T的Backpack。實(shí)際組大網(wǎng)能力提高遠(yuǎn)超四倍。如下圖所示:

為了提供128x100GE接口能力,如果采用3.2T芯片,需要4(Spine)+8(Leaf)共12顆芯片的 架構(gòu),每個(gè)leaf 提供16x100GE接入Fabric Spine還有16x100GE用戶接入。如果采用3.2T Pizzabox實(shí)現(xiàn)同樣用戶接口能力,總共需要12個(gè)3.2T的盒子(12RU)。

隨著芯片容量提高,單端口100GE 的價(jià)格一般會(huì)下降。也就是12.8T盒子價(jià)格是小于四個(gè)3.2T 盒子,同時(shí)加上3.2T芯片之間互聯(lián)的光模塊,光纖,耗電,空間成本,12.8T單芯片盒子方案可以比之前3.2T盒子搭出來(lái)的Fabric節(jié)省5~6倍的TCO。

Fabric As a Switch: 業(yè)界通用采用多顆小型芯片構(gòu)建一個(gè)超大型多槽位交換機(jī)/路由器系統(tǒng)。

比如Cisco的 Nexus9K 產(chǎn)品架構(gòu)如圖(參見(jiàn) Cisco 白皮書),早期的多槽位交換機(jī),每板卡上有6個(gè)ASIC,8個(gè)槽位48個(gè)芯片(Leaf)連接到 Cross BAR(Spine)。整個(gè)交換機(jī)是一個(gè)12+48的Leaf/Spine Fabric 系統(tǒng)。

業(yè)界在不同階段/場(chǎng)景。隨著芯片技術(shù)進(jìn)步,新一代的芯片可以替代前代的一個(gè) Fabric 矩陣(Switch as A Fabric)。如果追求單機(jī)更高端口數(shù)量,可以采用多顆芯片Leaf/Spine構(gòu)建更大交換機(jī)(Fabric As a Switch)。技術(shù)發(fā)展總是螺旋上升,最近幾年云公司更喜歡單芯片盒子設(shè)計(jì)。

2.3 MiniPack 和 F16 新架構(gòu) Fabric as Switch, Switch as Fabric

Facebook2019年推出新的盒子設(shè)計(jì)MiniPack,就是利用了新的12.8T 芯片,從原有 7RU設(shè)計(jì),濃縮進(jìn) 4RU 更小的單芯片盒子。同時(shí)單芯片盒子還帶來(lái)了一些其他的好處。

更低時(shí)延Latency,針對(duì)越來(lái)越多的AI/ML負(fù)載,服務(wù)器之間的跳數(shù)和時(shí)延越來(lái)越重要,采用單一芯片的Minipack在5-stage CLOS網(wǎng)絡(luò)中,服務(wù)器到另一臺(tái)服務(wù)器,僅僅需要跨越5個(gè)不同的芯片,這些芯片時(shí)延低至 400~600ns。同樣的網(wǎng)絡(luò)拓?fù)洌绻捎肂ackPack則需要跨越11個(gè)芯片(每個(gè)盒子至少3顆芯片),芯片數(shù)量增加一倍以上。如果采用類似Jericho類信元交換盒子的設(shè)備每跳時(shí)延可達(dá)8000ns 以上,時(shí)延達(dá)到20倍左右。

簡(jiǎn)化,從12 顆3.2T簡(jiǎn)化成一個(gè)單芯片。整機(jī)耗電,空間占比(7RU-4RU)等大大減少減少。4RU是提供滿載 12x100GE 接口的最優(yōu)方案,如果采用 200GE/400GE接口,空間占比可以降為2RU(64x200GE)甚至 1RU(32x400GE)??刂破矫鎻?2個(gè) BGP speaker 簡(jiǎn)化到1個(gè)BGP speaker。消除了芯片之間的負(fù)載均衡效率問(wèn)題和 PFC/ECN反壓流控等問(wèn)題。

時(shí)延,流控,負(fù)載均衡等非常適合新一代交換機(jī)引入RoCEv2技術(shù)來(lái)支持AI算力。

利用新一代128x100GE 扇出的Minipack單一芯片盒子,F(xiàn)acebook構(gòu)造了下一代F16 網(wǎng)絡(luò)架構(gòu)。Minipack相對(duì)于前代的Backpack只是芯片和架構(gòu)的創(chuàng)新,還是相應(yīng)的128 端口100GE 扇出。所以理論上是可以沿用F4的架構(gòu)設(shè)計(jì)。

由于單機(jī)柜服務(wù)器流量增長(zhǎng),4x100GE 每機(jī)柜不能滿足要求,新的設(shè)計(jì)RSW有更多的 16x100GE上行。因此架構(gòu)上從4個(gè)Spine平面,增加到16個(gè)Spine平面,并且進(jìn)行了一些微調(diào)。

雖然增加了FSW的數(shù)量,但是FSW層F4設(shè)計(jì)采用4平面x12芯片/盒子,總共48個(gè)芯片,增加到16個(gè)平面單芯片盒子,反而芯片數(shù)量減少了2/3,成本,功耗,空間都得到了優(yōu)化。

RSW(Rack Switch):保留每個(gè)POD 48臺(tái)TOR 交換機(jī)匯聚到16臺(tái)Fabric Switches 分屬16個(gè)不同的平面;POD可以橫向擴(kuò)展Scale Out。最多128個(gè) POD。

FSW(Fabric Switch):每個(gè)平面最多128臺(tái) FSW ,16臺(tái)Fabric交換機(jī)分別上聯(lián)到 16個(gè)平面的Spine Switches,Spine平面是完全隔離的。

SSW(Spine Switch):36臺(tái) SSW 和最多128臺(tái)FSW組成一個(gè)平面。匯聚所有的 POD流量。取消了Edge switch POD,直接通過(guò)SSW和其他DC機(jī)房的Fabric互聯(lián),或者去往Backbone和互聯(lián)網(wǎng)的流量。

超大規(guī)模:每個(gè)SSW有128個(gè)端口,所以最多接128個(gè)FSW(POD),同時(shí)還有至少8/16個(gè)接口去HGRID作為Edge switch,所以一個(gè)數(shù)據(jù)中心平面可以支持大概 120個(gè)FSW。也就是120個(gè)POD。所以一F4數(shù)據(jù)中心可以最多支持:120x48=5760 RSW,也 就是大概不到6000個(gè)機(jī)柜 Switch,跟F4單數(shù)據(jù)中心支持的機(jī)柜數(shù)量一致。Facebook 還定義了8個(gè)平面的小型數(shù)據(jù)中心F8 Fabric版本。支持機(jī)柜數(shù)量不變,但是每機(jī)柜只提供8x100GE上行。FSW/SSW數(shù)量減半,鏈路,光模塊,光纖數(shù)量也都相應(yīng)減半。

2.4 CLOS 網(wǎng)絡(luò)規(guī)劃

Facebook Minipack 單芯片盒子構(gòu)建Fabric設(shè)計(jì),跟很多Tier1云公司思路一致,也影響到很多Tier2甚至中小型數(shù)據(jù)中心交換矩陣設(shè)計(jì)。Linkedin 2016年數(shù)據(jù)中心Fabric Project Altair也是類似的5級(jí)CLOS架構(gòu),采用3.2T(32x100GE)/1RU 盒子,每個(gè) 100GE breakout 出來(lái)2x50GE 接口,總共可以分出來(lái)64個(gè)50GE接口,來(lái)支持64個(gè) POD 設(shè)計(jì)??梢灾С?2(TOR/POD) x64(POD)=2048個(gè)機(jī)柜設(shè)計(jì)。

Linkedin 的數(shù)據(jù)中心設(shè)計(jì)需要64端口扇出的盒子,由于當(dāng)時(shí)他們只自研了3.2T的 Falco 開(kāi)放交換平臺(tái),所以采用了一種不得已的Breakout分出50G Fabric設(shè)計(jì)?,F(xiàn)在市場(chǎng)上有各種成熟的64 x 100GE /128x100GE的單芯片盒子。采用3/5-stage 數(shù)據(jù)中心100GE Fabric 設(shè)計(jì),可以提供32~8000個(gè)機(jī)柜的標(biāo)準(zhǔn)設(shè)計(jì)。下面以128x100GE(4RU)單芯片盒子為例。

POD規(guī)模:受限制于 Fabric SW(Spine),根據(jù)收斂比來(lái)定制,128 個(gè)端口:

無(wú)阻塞:64(上行SpineSW)/64(下行 RackSW),每個(gè)POD包含64個(gè)TOR

1:3 收斂比:32(上行SpineSW)/96(下行RackSW),每個(gè)POD包含 96個(gè)TOR

POD數(shù)量:受限制于Spine SW(SuperSpine),128個(gè)端口,可以支持128個(gè) POD

Fabric規(guī)模:

無(wú)阻塞:128(POD)x 64(TOR/POD) = 8,192機(jī)柜(雙上聯(lián) 4K)

1:3 收斂比:128(POD)x 96(TOR/POD) = 12,288機(jī)柜(雙上聯(lián) 6K)

實(shí)際部署,要考慮 DC Border Leaf(出口)大概支持6K機(jī)柜規(guī)模(3K 雙上聯(lián))

64x100GE(2RU)的Fabric設(shè)計(jì)類似,理論可以支持2K(無(wú)阻塞)/3K(1:3)雙聯(lián)減半,足夠滿足大部分中小互聯(lián)網(wǎng)和大企業(yè)數(shù)據(jù)中心需求。128x4RU盒子每RU端口密度也 只是32x100GE。卻可以替代2+4個(gè)64x100GE的2RU 盒子。在大規(guī)模部署時(shí)更經(jīng)濟(jì),但是小規(guī)模<200~500 racks 時(shí)需要具體分析。

2.5 200G/400G Fabric

2019/2020年很多公司推出400G/200G接口的交換機(jī)設(shè)備,同時(shí)服務(wù)器網(wǎng)卡也紛紛支持單/雙端口50G/100G,甚至開(kāi)始支持單口200G接口。

很多大型互聯(lián)網(wǎng)公司在考慮部署100G交換機(jī)Fabric之后,是采用200G還是400G Fabric?要回答這個(gè)問(wèn)題,先看多大規(guī)模部署?離開(kāi)規(guī)模談部署都是耍流氓。首先看 Hyperscale云公司廣泛采用的Fabric設(shè)計(jì):

8 端口上行的設(shè)計(jì):TOR上提供8x200G上行,就可以支持單機(jī)柜每服務(wù)器40G-100G 的 并發(fā)流量。在 PCI-e 3.0(Intel)和 PCI-e4.0(AMD)網(wǎng)卡服務(wù)器上帶寬足夠了。除了存儲(chǔ)和AI GPU,大部分TOR還不需要8x400G上行。8x200GE 是個(gè)不錯(cuò)的選擇。

128端口扇出:Spine交換機(jī)128x200G=25.6T芯片(采用512 x 56G PAM4 或者 256x112G PAM4)在2020 /21 年成熟。對(duì)于51.2T=128x400G 芯片必須要等到 2022/2023 年,512 x 112G PAM4 Serdes 才能成熟。如果要采用56G PAM5的話,單顆芯片Die Size無(wú)法放進(jìn)去1024 x 56 PAM4 Serdes。也就是說(shuō)200G端口 Spine switch會(huì)有 2-3 年以上的生命周期。

400G光模塊性價(jià)比:400G QSFP-DD采用8x56G PAM4技術(shù)。價(jià)格還是居高不下。以FS.com 網(wǎng)上2020年3月價(jià)格來(lái)看2KM 100G CWDM4 只要$250左右,而 2KM 400G XDR4/FR4需要$7K-8K。是100G同樣距離的32倍左右,遠(yuǎn)遠(yuǎn)超過(guò)了期望的4倍100GE價(jià)格。為了接入51.2T Spine 盒子,需要等4x112G PAM4 技術(shù)的 400G光模塊,價(jià)格短期內(nèi)只會(huì)更高。2020 年很多廠商提供200G光模塊,價(jià)格可以做到同樣距離100G的兩倍左 右,200G Fabric交換矩陣的性價(jià)比更好。

綜上所述,美國(guó)很多云公司紛紛采納200G Fabric設(shè)計(jì)作為100G的下一代。他們的決定會(huì)推動(dòng)200GE生態(tài),包括56G PAM4網(wǎng)卡(最新 Mellanox ConnectX6),200G光模塊和交換機(jī)生態(tài)。

對(duì)于私有云混合云和中小型超算數(shù)據(jù)中心,Spine/Super Spine可以采用12.8T芯片 64x200GE/32x400GE端口扇出,就可以構(gòu)建2000個(gè)機(jī)柜的200G/400G Fabric。不需要等25.6T芯片推出市場(chǎng)。

云公司Fabric構(gòu)建需要不同距離的光模塊,Google/AWS/Azure 每家在同樣網(wǎng)絡(luò)位置,采用的光模塊技術(shù)不盡相同。100G/200G fabric 光模塊都成熟,升級(jí)到200G價(jià)格增加大概1倍左右:

Spine/SuperSpine 之間: 2km CWDM4 或者 2km PSM4

Spine/Leaf 之間:2km CWDM4,500m PSM4, 100m SR4

Leaf/Server 之間: < 100m AOC/DAC

現(xiàn)在轉(zhuǎn)型 200GE fabric,還有以下優(yōu)勢(shì):

56G PAM4 芯片成熟,網(wǎng)卡/光模塊/交換機(jī) ASI三種芯片都全面支持56G PAM4,從服務(wù)器到Fabric設(shè)備不需要添加額外的Gearbox,時(shí)延降低,成本降低,設(shè)備出錯(cuò)概率降低。

a. Minipack 以太網(wǎng) ASIC 芯片是 56G PAM4,但是要出 100G NRZ 接口,所以整機(jī)添 加了32 個(gè)Gearbox 做 PAM4 到 NRZ 的轉(zhuǎn)換。成本更高,時(shí)延增加(從 400ns到800ns以上),Gearbox硬件出錯(cuò)需要更換整機(jī)或者板卡。

空間優(yōu)勢(shì),基于12.8T芯片的2RU Spine/SuperSpine設(shè)備,比4RU的 128x100GE 盒子( Minipack )占機(jī)架空間更小。

成本優(yōu)勢(shì),同樣Fabric容量,光模塊/光纖 Fiber數(shù)量少一半。享受云公司推動(dòng) 200GE端到端成本降低紅利。最近我們推薦給客戶的幾個(gè)200G Fabric,總價(jià)格基本上和100G fabric持平,甚至有20%~40%的成本減少。

不可否認(rèn),32x400GE接口交換機(jī)已經(jīng)推出市場(chǎng)一年。400G AOC 和 Breakout 光纖解決方案成本降低很快,一些客戶構(gòu)建了短距離小型的 Fabric,比如4(SuperSpine)+8(Spine)個(gè)1RU 32 x 400GE在一個(gè)機(jī)柜里,通過(guò)breakout 4x100GE 接到 TOR switch 上的方案(某 Telco Cloud 選擇)。

但由于400G光模塊價(jià)格仍然很高(500m~2KM同樣距離,20~30倍價(jià)格差),同時(shí)由于芯片技術(shù)限制(51.2T 只能采用100G PAM4新型光模塊遠(yuǎn)不成熟),我們預(yù)估400G Fabric在云公司2023+之后才能大規(guī)模部署,也就是說(shuō)200G Fabric會(huì)有2-3 年生命周期。2020 年私有云混合云和中小型超算,從100G Fabric 升級(jí)到 200G 也可以享受云公司帶來(lái)的技術(shù)紅利。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論