亚洲人妻一区二区三区视频,亚洲精品免费观看,成人av在在线观看

超大規(guī)模云網(wǎng)絡(luò)數(shù)據(jù)中心創(chuàng)新

2020-04-21 09:51

SDNLAB君

馬紹文

對(duì)于私有云混合云和中小型超算數(shù)據(jù)中心，Spine/Super Spine可以采用12.8T芯片 64x200GE/32x400GE端口扇出，就可以構(gòu)建2000個(gè)機(jī)柜的200G/400G Fabric。不需要等25.6T芯片推出市場(chǎng)。

1、云網(wǎng)絡(luò)趨勢(shì)和流量變化

隨著云計(jì)算的發(fā)展，Internet 從最早承載海量文本/圖片/視頻，演變到高清直播占據(jù) Internet 主要流量（Netfliex/AWS, Youtube/Google, Facebook Live/TickTok）。隨著 AR 相機(jī) 和社交VR（Social VR）的等新應(yīng)用的到來(lái)，互聯(lián)網(wǎng)的流量還會(huì)持續(xù)高速增長(zhǎng)。Google的一篇論文講，每9個(gè)月Google數(shù)據(jù)中心流量翻倍，每5年數(shù)據(jù)中心流量增長(zhǎng)100倍。大部分的流量增長(zhǎng)并沒(méi)有體現(xiàn)在運(yùn)營(yíng)商SP的網(wǎng)絡(luò)中，而是主要集中在OTT網(wǎng)絡(luò)中。Google/Facebook/AWS/Microsoft/Apple 為代表五大OTT都構(gòu)建了全球規(guī)模的骨干網(wǎng)，很多人也稱之為『Private Internet』。OTT的數(shù)據(jù)中心/WAN/PoP流量快速增長(zhǎng)，帶來(lái)OTT網(wǎng)絡(luò)架構(gòu)的快速迭代和升級(jí)。傳統(tǒng)的設(shè)備形態(tài)和網(wǎng)管工具無(wú)法適應(yīng)流量和業(yè)務(wù)的快速發(fā)展。OTT紛紛采用自研設(shè)備，引入SDN 來(lái)管理全球骨干網(wǎng)。

伴隨云網(wǎng)絡(luò)流量的極速增長(zhǎng)，云網(wǎng)絡(luò)的負(fù)載也發(fā)生了天翻地覆的變化。30年前發(fā)明的傳統(tǒng)TCP/IP，已經(jīng)不能適應(yīng)大規(guī)模視頻和AI發(fā)展的需求。

南北向流量：從超大規(guī)模數(shù)據(jù)中心，邊緣POP點(diǎn)到終端用戶的App/Browser，很多云公司已經(jīng)大規(guī)模部署QUIC。引入QUIC能帶來(lái)更優(yōu)的擁塞流控，Multi-Streaming 控制，更安全的報(bào)文全加密，并且接入SDN（Google Espresso）進(jìn)行每用戶全局調(diào)控。Google發(fā)表的白皮書提到自從2014年開(kāi)始大規(guī)模部署，到2018年底，35%的 Google南北向流量（大概 10%的 Internet 流量）已經(jīng)承載在QUIC協(xié)議上。其他主流云公司例如微軟，F(xiàn)acebook，Apple 和 Akamai 等也紛紛采用QUIC。

東西向流量：AI/ML計(jì)算需要Tensor flow運(yùn)行在成百上千個(gè)GPU節(jié)點(diǎn)，需要分布在多個(gè)機(jī)柜之間的服務(wù)器傳送大量數(shù)據(jù)和中間計(jì)算結(jié)果。多個(gè)GPU和高端存儲(chǔ)之間缺省采用新型的 RoCEv2 來(lái)提供更高的網(wǎng)絡(luò)性能和避免擁塞。

數(shù)據(jù)中心之間的大規(guī)模備份和都越來(lái)越多的采用TCP-BBR（Bottleneck Bandwidth and Round-trip propagation）擁塞控制算法來(lái)應(yīng)對(duì) Internet 丟包，提供 DC 之間高達(dá)幾個(gè)Tbps的吞吐。在部署了TCP BRR之后，B4（Google DCI）網(wǎng)絡(luò)性能提高了 2~20 倍。云公司，不光把TCP-BBR 用在自家數(shù)據(jù)中心互聯(lián)，同時(shí)還提供給所有的云客戶。比如客戶在 Google GCP上創(chuàng)建VM，服務(wù)器側(cè)自動(dòng)采用最新的支持TCP BRR內(nèi)核。著名的Amazon CloudFront，CloudFlare等公司也紛紛采用TCP BRR。

數(shù)據(jù)中心東西向和南北向負(fù)載和流量的變化，越來(lái)越依賴服務(wù)器智能網(wǎng)卡支持 QUIC/TCP BRR 和RoCEv2 等更多新型協(xié)議和技術(shù)和CPU負(fù)載卸載（offload）。

AI/ML 的蓬勃發(fā)展，異構(gòu)計(jì)算（Heterogeneous Computing）在數(shù)據(jù)中心引入了各種多核心 CPU 處理器、GPU 圖形核心、TPU（Tensor Flow）、DSP、ASIC、FPGA 等融合處理器多種設(shè)備的架構(gòu)。傳統(tǒng)的以 CPU 為中心的數(shù)據(jù)中心設(shè)計(jì)理念已經(jīng)不能滿足大規(guī)模 GPU 集群，大容量高速 SSD 海量存儲(chǔ)器和特殊 FPGA 加速的要求。2019 年很多公司提出來(lái) IPU（I/O Processing Unit）/DPU(Data Processing Unit)等以 SmartNic 為中心的全新數(shù)據(jù)中心設(shè)計(jì)思路。相關(guān)理念也在云公司比如微軟 Auzre/亞馬遜 AWS 的云網(wǎng)絡(luò)中得以實(shí)現(xiàn)。

以 Smartnic 為中心的數(shù)據(jù)中心架構(gòu)設(shè)計(jì)，中心思想就是 Offload CPU 的功能。傳統(tǒng) GPU, SSD, FPGA 數(shù)據(jù)跨服務(wù)器通訊都需要通過(guò) CPU 中轉(zhuǎn)，CPU 成為網(wǎng)絡(luò)發(fā)展的瓶頸。引入IPU之后，傳統(tǒng)的GPU和SSD可以更有效的通過(guò)RoCEv2和NVMEoF來(lái)提供更高帶寬和低延時(shí)業(yè)務(wù)。

IPU提供類似AWS Nitro的全方位 SDN 網(wǎng)絡(luò)，SDS存儲(chǔ)和SDSec安全支持，并且大部分功能可以卸載到網(wǎng)卡，支持接近裸機(jī)性能的全新云網(wǎng)架構(gòu)。

2、數(shù)據(jù)中心 Underlay 網(wǎng)絡(luò)架構(gòu)

2.1 Scale Up 和 Scale Out 網(wǎng)絡(luò)

傳統(tǒng)大規(guī)模數(shù)據(jù)中心從4-POST（2004 年設(shè)計(jì)）演變而來(lái)，Google 最早采用4個(gè)大型交換機(jī)（路由器，Cluster Router）來(lái)連接 512 個(gè) TOR 機(jī)柜交換機(jī)，每個(gè) Cluster Router16 槽位 x 32 端口能提供512個(gè)1GE到TOR（Top Of Rack 機(jī)柜頂端交換機(jī)）。每個(gè)TOR接到4個(gè)Cluster Router 提供多上行冗余。

隨著超大規(guī)模數(shù)據(jù)中心計(jì)算能力和帶寬需求越來(lái)越高，一個(gè)數(shù)據(jù)中心機(jī)房里的 TOR 交換機(jī)數(shù)量可達(dá)3000~5000，單個(gè)設(shè)備很難支持?jǐn)?shù)千個(gè)10GE/25GE/100GE接口。而且大型設(shè)備的開(kāi)發(fā)周期很長(zhǎng)，數(shù)量很少（一個(gè)數(shù)據(jù)中心只需4個(gè)），成本很高。大型 OTT紛紛開(kāi)始在其數(shù)據(jù)中心中采用CLOS架構(gòu)，利用數(shù)量眾多，小規(guī)模的基本交換矩陣（CrossBar）來(lái)構(gòu)建超大規(guī)模網(wǎng)絡(luò)Fabric。

CLOS 網(wǎng)絡(luò)架構(gòu)的級(jí)數(shù)Stage，是基于路徑上經(jīng)過(guò)多少跳。比如上圖中的3-stage 是最簡(jiǎn)單的，Leaf/Spine兩層，但是從一個(gè)服務(wù)器到另一個(gè)機(jī)柜的服務(wù)器，經(jīng)過(guò)三跳。以此類推，5-stage 是三層，9-stage是四層架構(gòu)。

最早的 CLOS 架構(gòu)應(yīng)用于構(gòu)建大型多板卡路由器和交換機(jī)。解決單芯片容量不足問(wèn)題。

2014 年，業(yè)界最高密度的單交換芯片僅能提供3.2Tbps（32x100GbE）。Facebook 想要建設(shè)超大規(guī)模數(shù)據(jù)中心，一個(gè)機(jī)房要求能夠容納超過(guò)5千個(gè)機(jī)柜的超大型交換矩陣。架構(gòu)師決定采用128端口扇出的盒子作為5級(jí)CLOS的Spine/Super Spine。BackPack（背包）架構(gòu)師采用了無(wú)阻塞的 Spine/Leaf 架構(gòu)來(lái)構(gòu)造一個(gè)7RU的盒子。其中4個(gè)3.2T芯片作為交換矩陣（spine），另外8個(gè)3.2T芯片分布到4個(gè)業(yè)務(wù)板卡，每個(gè)板卡上有兩個(gè)3.2T芯片（每個(gè)芯片 1.6T 到用戶，1.6T 到 Fabric/Spine），總共可以提供16x8=128x100GE用戶接口。

對(duì)于128x100GE Fabric，可以采用 7RU 的 BackPack 設(shè)計(jì)，也可以采用 12 個(gè) 1RU 的 3.2T (4+8 Spine/Leaf) 設(shè)計(jì)。BackPack的優(yōu)缺點(diǎn)如下：

128端口扇出，無(wú)阻塞，空間占比更優(yōu)（7RU vs 12RU），板卡級(jí)別共享風(fēng)扇/電源模塊。

節(jié)省 Pizzabox 盒子之間互聯(lián)的光模塊/Cable，采用低價(jià)的SerDes 進(jìn)行板卡級(jí)別互聯(lián)。

由于 Backpack 的多顆 Spine/Leaf 芯片只能在同一個(gè)機(jī)柜，導(dǎo)致到 TOR 交換機(jī)距離過(guò)長(zhǎng)，只能采用更為昂貴的CWDM4光模塊。如果采用12個(gè)Spine/Leaf 盒子分布到多個(gè)樓層的機(jī)柜可以采用更便宜的 AOC/SR 光模塊達(dá)到同樣的效果，總體兩種方案 TCO 相差不大。

BackPack 跟傳統(tǒng)設(shè)備提供商C/J的路由器交換機(jī)設(shè)計(jì)理念完全不一樣。每個(gè)板卡和交換矩陣都有 CPU，都運(yùn)行BGP路由協(xié)議。板卡之間的MAC/IP Prefix交換也通過(guò)BGP。單個(gè)BackPack設(shè)備，有多個(gè)BGP Speaker節(jié)點(diǎn)。屬于很奇葩的設(shè)計(jì)。

Facebook 在 2014 年開(kāi)始設(shè)計(jì)了 F4 數(shù)據(jù)中心 Fabric 架構(gòu)，采用128端口扇出的 Backpack 盒子作為Spine/SuperSpine。如下圖立方體（Cubic）設(shè)計(jì)。

F4 秉承 4-Post 的設(shè)計(jì)理念，把 4 Post 的四個(gè)大路由器替換成四個(gè) Fabric 平面。用 128 端口的Leaf/Spine Fabric 來(lái)代替超大型單臺(tái)多槽位交換機(jī)實(shí)現(xiàn) Scale Out 設(shè)計(jì)。

RSW(Rack Switch)：每個(gè)POD 48臺(tái)TOR交換機(jī)匯聚到4臺(tái) Fabric Switches 分屬四個(gè)不同的平面；POD 可以橫向擴(kuò)展 Scale Out。最多 128 個(gè) POD（包括 Edge POD）。

FSW(Fabric Switch)：每個(gè)平面最多128 臺(tái) FSW ，4臺(tái)Fabric 交換機(jī)分別上聯(lián)到四個(gè)平面的Spine Switches，Spine平面是完全隔離的。

SSW(Spine Switch)：48 臺(tái)SSW和最多128臺(tái) FSW組成一個(gè)平面。匯聚所有的 POD 流量。

ESW：Edge switch POD（淡黃色部分）里的Edge Switch 和 SSW 互聯(lián)，可以彈性擴(kuò)展連往其他 DC，或者去往 Backbone 和互聯(lián)網(wǎng)的流量

超大規(guī)模：每個(gè) SSW 有 128 個(gè)端口，所以最多接 128 個(gè) FSW，同時(shí)還有至少四個(gè)FSW作為Edge switch，所以一個(gè)數(shù)據(jù)中心平面可以支持大概120個(gè)FSW。也就是120個(gè)POD。所以一個(gè)F4 數(shù)據(jù)中心可以最多支持：120x48=5760 RSW，也就是大概 6000 個(gè)機(jī)柜。

各大云公司采用的架構(gòu)不太一樣，比如 Facebook F4 fabric 采用 BackPack 來(lái)構(gòu)建 5-stage (如果算Chip，每個(gè)Backpack 3 stage CLOS，總共 9-Stage Chip) CLOS 架構(gòu)。

其實(shí)Facebook的立方體架構(gòu)就是普通的5級(jí)CLOS。上圖中可以看到，如果把右面的立方體四個(gè)平面展開(kāi)（每個(gè)平面就是原本 4-Postd 的一個(gè)大交換機(jī)），就是左下圖基于 Fabric 的設(shè)計(jì)，48 Spine SW+128個(gè)Fabric Switches屬于同一個(gè)平面，每個(gè)Fabric Switches接一個(gè)POD里的48個(gè)Rack Switch。然后左下圖的Fabric Design中Fabric Switch 移動(dòng)到相應(yīng)的128個(gè)POD，就是左上圖的基于POD的設(shè)計(jì)。所以可以看出來(lái)雖然三張圖畫法不同，設(shè)計(jì)理念不同，但是殊途同歸，都是 5 Stage-CLOS 來(lái)支持 5~6千機(jī)柜的設(shè)計(jì)。

Google在2016年揭曉了基于Trident芯片 16x40GE 設(shè)計(jì)的 Jupiter 40G Fabric 數(shù)據(jù)中心架構(gòu)。實(shí)際當(dāng)年應(yīng)該已經(jīng)規(guī)模部署 32x100GE 架構(gòu)（Google一般揭秘2-5年之前的前代技術(shù)）。Jupiter 架構(gòu)設(shè)計(jì)中，采用四個(gè)Trident芯片來(lái)構(gòu)建Centauri（半人馬），四個(gè)Centauri組成一個(gè)Middle Block，6個(gè)Centauri 組成一個(gè)Spine Block。從芯片的角度其實(shí)是5層 9-Stage CLOS架構(gòu)。

2.2 Fabric as a Switch, Switches as a Fabric

到了 2019 年，各個(gè)主流芯片公司紛紛推出 12.8Tbps 的新一代芯片。對(duì)比2014年推出的3.2T芯片，容量提高了4倍。按照同樣Backpack的思路，可以基于4+8個(gè)12.8T芯片構(gòu)建 128x400GE 新型盒子。實(shí)際上由于400G的光模塊在2019年技術(shù)遠(yuǎn)沒(méi)有成熟，大規(guī)模400G Fabric部署不具備性價(jià)比。

Switch as a Fabric：?jiǎn)晤w大容量芯片盒子可以替代之前的一個(gè)小容量芯片構(gòu)建的交換矩陣Fabric。Facebook優(yōu)化了Backpack，采用一顆單一12.8Tbps芯片來(lái)取代12顆 3.2T的Backpack。實(shí)際組大網(wǎng)能力提高遠(yuǎn)超四倍。如下圖所示：

為了提供128x100GE接口能力，如果采用3.2T芯片，需要4（Spine）+8（Leaf）共12顆芯片的架構(gòu)，每個(gè)leaf 提供16x100GE接入Fabric Spine還有16x100GE用戶接入。如果采用3.2T Pizzabox實(shí)現(xiàn)同樣用戶接口能力，總共需要12個(gè)3.2T的盒子（12RU）。

隨著芯片容量提高，單端口100GE 的價(jià)格一般會(huì)下降。也就是12.8T盒子價(jià)格是小于四個(gè)3.2T 盒子，同時(shí)加上3.2T芯片之間互聯(lián)的光模塊，光纖，耗電，空間成本，12.8T單芯片盒子方案可以比之前3.2T盒子搭出來(lái)的Fabric節(jié)省5~6倍的TCO。

Fabric As a Switch: 業(yè)界通用采用多顆小型芯片構(gòu)建一個(gè)超大型多槽位交換機(jī)/路由器系統(tǒng)。

比如Cisco的 Nexus9K 產(chǎn)品架構(gòu)如圖（參見(jiàn) Cisco 白皮書），早期的多槽位交換機(jī)，每板卡上有6個(gè)ASIC，8個(gè)槽位48個(gè)芯片（Leaf）連接到 Cross BAR（Spine）。整個(gè)交換機(jī)是一個(gè)12+48的Leaf/Spine Fabric 系統(tǒng)。

業(yè)界在不同階段/場(chǎng)景。隨著芯片技術(shù)進(jìn)步，新一代的芯片可以替代前代的一個(gè) Fabric 矩陣（Switch as A Fabric）。如果追求單機(jī)更高端口數(shù)量，可以采用多顆芯片Leaf/Spine構(gòu)建更大交換機(jī)（Fabric As a Switch）。技術(shù)發(fā)展總是螺旋上升，最近幾年云公司更喜歡單芯片盒子設(shè)計(jì)。

2.3 MiniPack 和 F16 新架構(gòu) Fabric as Switch, Switch as Fabric

Facebook2019年推出新的盒子設(shè)計(jì)MiniPack，就是利用了新的12.8T 芯片，從原有 7RU設(shè)計(jì)，濃縮進(jìn) 4RU 更小的單芯片盒子。同時(shí)單芯片盒子還帶來(lái)了一些其他的好處。

更低時(shí)延Latency，針對(duì)越來(lái)越多的AI/ML負(fù)載，服務(wù)器之間的跳數(shù)和時(shí)延越來(lái)越重要，采用單一芯片的Minipack在5-stage CLOS網(wǎng)絡(luò)中，服務(wù)器到另一臺(tái)服務(wù)器，僅僅需要跨越5個(gè)不同的芯片，這些芯片時(shí)延低至 400~600ns。同樣的網(wǎng)絡(luò)拓?fù)洌绻捎肂ackPack則需要跨越11個(gè)芯片（每個(gè)盒子至少3顆芯片），芯片數(shù)量增加一倍以上。如果采用類似Jericho類信元交換盒子的設(shè)備每跳時(shí)延可達(dá)8000ns 以上，時(shí)延達(dá)到20倍左右。

簡(jiǎn)化，從12 顆3.2T簡(jiǎn)化成一個(gè)單芯片。整機(jī)耗電，空間占比（7RU-4RU）等大大減少減少。4RU是提供滿載 12x100GE 接口的最優(yōu)方案，如果采用 200GE/400GE接口，空間占比可以降為2RU(64x200GE)甚至 1RU（32x400GE）?？刂破矫鎻?2個(gè) BGP speaker 簡(jiǎn)化到1個(gè)BGP speaker。消除了芯片之間的負(fù)載均衡效率問(wèn)題和 PFC/ECN反壓流控等問(wèn)題。

時(shí)延，流控，負(fù)載均衡等非常適合新一代交換機(jī)引入RoCEv2技術(shù)來(lái)支持AI算力。

利用新一代128x100GE 扇出的Minipack單一芯片盒子，F(xiàn)acebook構(gòu)造了下一代F16 網(wǎng)絡(luò)架構(gòu)。Minipack相對(duì)于前代的Backpack只是芯片和架構(gòu)的創(chuàng)新，還是相應(yīng)的128 端口100GE 扇出。所以理論上是可以沿用F4的架構(gòu)設(shè)計(jì)。

由于單機(jī)柜服務(wù)器流量增長(zhǎng)，4x100GE 每機(jī)柜不能滿足要求，新的設(shè)計(jì)RSW有更多的 16x100GE上行。因此架構(gòu)上從4個(gè)Spine平面，增加到16個(gè)Spine平面，并且進(jìn)行了一些微調(diào)。

雖然增加了FSW的數(shù)量，但是FSW層F4設(shè)計(jì)采用4平面x12芯片/盒子，總共48個(gè)芯片，增加到16個(gè)平面單芯片盒子，反而芯片數(shù)量減少了2/3，成本，功耗，空間都得到了優(yōu)化。

RSW(Rack Switch)：保留每個(gè)POD 48臺(tái)TOR 交換機(jī)匯聚到16臺(tái)Fabric Switches 分屬16個(gè)不同的平面；POD可以橫向擴(kuò)展Scale Out。最多128個(gè) POD。

FSW(Fabric Switch)：每個(gè)平面最多128臺(tái) FSW ，16臺(tái)Fabric交換機(jī)分別上聯(lián)到 16個(gè)平面的Spine Switches，Spine平面是完全隔離的。

SSW(Spine Switch)：36臺(tái) SSW 和最多128臺(tái)FSW組成一個(gè)平面。匯聚所有的 POD流量。取消了Edge switch POD，直接通過(guò)SSW和其他DC機(jī)房的Fabric互聯(lián)，或者去往Backbone和互聯(lián)網(wǎng)的流量。

超大規(guī)模：每個(gè)SSW有128個(gè)端口，所以最多接128個(gè)FSW（POD），同時(shí)還有至少8/16個(gè)接口去HGRID作為Edge switch，所以一個(gè)數(shù)據(jù)中心平面可以支持大概 120個(gè)FSW。也就是120個(gè)POD。所以一F4數(shù)據(jù)中心可以最多支持：120x48=5760 RSW，也就是大概不到6000個(gè)機(jī)柜 Switch，跟F4單數(shù)據(jù)中心支持的機(jī)柜數(shù)量一致。Facebook 還定義了8個(gè)平面的小型數(shù)據(jù)中心F8 Fabric版本。支持機(jī)柜數(shù)量不變，但是每機(jī)柜只提供8x100GE上行。FSW/SSW數(shù)量減半，鏈路，光模塊，光纖數(shù)量也都相應(yīng)減半。

2.4 CLOS 網(wǎng)絡(luò)規(guī)劃

Facebook Minipack 單芯片盒子構(gòu)建Fabric設(shè)計(jì)，跟很多Tier1云公司思路一致，也影響到很多Tier2甚至中小型數(shù)據(jù)中心交換矩陣設(shè)計(jì)。Linkedin 2016年數(shù)據(jù)中心Fabric Project Altair也是類似的5級(jí)CLOS架構(gòu)，采用3.2T（32x100GE）/1RU 盒子，每個(gè) 100GE breakout 出來(lái)2x50GE 接口，總共可以分出來(lái)64個(gè)50GE接口，來(lái)支持64個(gè) POD 設(shè)計(jì)?？梢灾С?2（TOR/POD） x64(POD)=2048個(gè)機(jī)柜設(shè)計(jì)。

Linkedin 的數(shù)據(jù)中心設(shè)計(jì)需要64端口扇出的盒子，由于當(dāng)時(shí)他們只自研了3.2T的 Falco 開(kāi)放交換平臺(tái)，所以采用了一種不得已的Breakout分出50G Fabric設(shè)計(jì)?，F(xiàn)在市場(chǎng)上有各種成熟的64 x 100GE /128x100GE的單芯片盒子。采用3/5-stage 數(shù)據(jù)中心100GE Fabric 設(shè)計(jì)，可以提供32~8000個(gè)機(jī)柜的標(biāo)準(zhǔn)設(shè)計(jì)。下面以128x100GE(4RU)單芯片盒子為例。

POD規(guī)模：受限制于 Fabric SW（Spine），根據(jù)收斂比來(lái)定制，128 個(gè)端口：

無(wú)阻塞：64(上行SpineSW)/64（下行 RackSW），每個(gè)POD包含64個(gè)TOR

1:3 收斂比：32(上行SpineSW)/96（下行RackSW），每個(gè)POD包含 96個(gè)TOR

POD數(shù)量：受限制于Spine SW（SuperSpine），128個(gè)端口，可以支持128個(gè) POD

Fabric規(guī)模：

無(wú)阻塞：128（POD）x 64(TOR/POD) = 8,192機(jī)柜（雙上聯(lián) 4K）

1:3 收斂比：128（POD）x 96(TOR/POD) = 12,288機(jī)柜（雙上聯(lián) 6K）

實(shí)際部署，要考慮 DC Border Leaf（出口）大概支持6K機(jī)柜規(guī)模（3K 雙上聯(lián)）

64x100GE（2RU）的Fabric設(shè)計(jì)類似，理論可以支持2K（無(wú)阻塞）/3K（1:3）雙聯(lián)減半，足夠滿足大部分中小互聯(lián)網(wǎng)和大企業(yè)數(shù)據(jù)中心需求。128x4RU盒子每RU端口密度也只是32x100GE。卻可以替代2+4個(gè)64x100GE的2RU 盒子。在大規(guī)模部署時(shí)更經(jīng)濟(jì)，但是小規(guī)模<200~500 racks 時(shí)需要具體分析。

2.5 200G/400G Fabric

2019/2020年很多公司推出400G/200G接口的交換機(jī)設(shè)備，同時(shí)服務(wù)器網(wǎng)卡也紛紛支持單/雙端口50G/100G，甚至開(kāi)始支持單口200G接口。

很多大型互聯(lián)網(wǎng)公司在考慮部署100G交換機(jī)Fabric之后，是采用200G還是400G Fabric？要回答這個(gè)問(wèn)題，先看多大規(guī)模部署？離開(kāi)規(guī)模談部署都是耍流氓。首先看 Hyperscale云公司廣泛采用的Fabric設(shè)計(jì)：

8 端口上行的設(shè)計(jì)：TOR上提供8x200G上行，就可以支持單機(jī)柜每服務(wù)器40G-100G 的并發(fā)流量。在 PCI-e 3.0（Intel）和 PCI-e4.0（AMD）網(wǎng)卡服務(wù)器上帶寬足夠了。除了存儲(chǔ)和AI GPU，大部分TOR還不需要8x400G上行。8x200GE 是個(gè)不錯(cuò)的選擇。

128端口扇出：Spine交換機(jī)128x200G=25.6T芯片（采用512 x 56G PAM4 或者 256x112G PAM4）在2020 /21 年成熟。對(duì)于51.2T=128x400G 芯片必須要等到 2022/2023 年，512 x 112G PAM4 Serdes 才能成熟。如果要采用56G PAM5的話，單顆芯片Die Size無(wú)法放進(jìn)去1024 x 56 PAM4 Serdes。也就是說(shuō)200G端口 Spine switch會(huì)有 2-3 年以上的生命周期。

400G光模塊性價(jià)比：400G QSFP-DD采用8x56G PAM4技術(shù)。價(jià)格還是居高不下。以FS.com 網(wǎng)上2020年3月價(jià)格來(lái)看2KM 100G CWDM4 只要$250左右，而 2KM 400G XDR4/FR4需要$7K-8K。是100G同樣距離的32倍左右，遠(yuǎn)遠(yuǎn)超過(guò)了期望的4倍100GE價(jià)格。為了接入51.2T Spine 盒子，需要等4x112G PAM4 技術(shù)的 400G光模塊，價(jià)格短期內(nèi)只會(huì)更高。2020 年很多廠商提供200G光模塊，價(jià)格可以做到同樣距離100G的兩倍左右，200G Fabric交換矩陣的性價(jià)比更好。

綜上所述，美國(guó)很多云公司紛紛采納200G Fabric設(shè)計(jì)作為100G的下一代。他們的決定會(huì)推動(dòng)200GE生態(tài)，包括56G PAM4網(wǎng)卡（最新 Mellanox ConnectX6），200G光模塊和交換機(jī)生態(tài)。

云公司Fabric構(gòu)建需要不同距離的光模塊，Google/AWS/Azure 每家在同樣網(wǎng)絡(luò)位置，采用的光模塊技術(shù)不盡相同。100G/200G fabric 光模塊都成熟，升級(jí)到200G價(jià)格增加大概1倍左右：

Spine/SuperSpine 之間: 2km CWDM4 或者 2km PSM4

Spine/Leaf 之間：2km CWDM4，500m PSM4, 100m SR4

Leaf/Server 之間: < 100m AOC/DAC

現(xiàn)在轉(zhuǎn)型 200GE fabric，還有以下優(yōu)勢(shì)：

56G PAM4 芯片成熟，網(wǎng)卡/光模塊/交換機(jī) ASI三種芯片都全面支持56G PAM4，從服務(wù)器到Fabric設(shè)備不需要添加額外的Gearbox，時(shí)延降低，成本降低，設(shè)備出錯(cuò)概率降低。

a. Minipack 以太網(wǎng) ASIC 芯片是 56G PAM4，但是要出 100G NRZ 接口，所以整機(jī)添加了32 個(gè)Gearbox 做 PAM4 到 NRZ 的轉(zhuǎn)換。成本更高，時(shí)延增加（從 400ns到800ns以上），Gearbox硬件出錯(cuò)需要更換整機(jī)或者板卡。

空間優(yōu)勢(shì)，基于12.8T芯片的2RU Spine/SuperSpine設(shè)備，比4RU的 128x100GE 盒子（ Minipack ）占機(jī)架空間更小。

成本優(yōu)勢(shì)，同樣Fabric容量，光模塊/光纖 Fiber數(shù)量少一半。享受云公司推動(dòng) 200GE端到端成本降低紅利。最近我們推薦給客戶的幾個(gè)200G Fabric，總價(jià)格基本上和100G fabric持平，甚至有20%~40%的成本減少。

不可否認(rèn)，32x400GE接口交換機(jī)已經(jīng)推出市場(chǎng)一年。400G AOC 和 Breakout 光纖解決方案成本降低很快，一些客戶構(gòu)建了短距離小型的 Fabric，比如4（SuperSpine）+8（Spine）個(gè)1RU 32 x 400GE在一個(gè)機(jī)柜里，通過(guò)breakout 4x100GE 接到 TOR switch 上的方案（某 Telco Cloud 選擇）。

但由于400G光模塊價(jià)格仍然很高（500m~2KM同樣距離，20~30倍價(jià)格差），同時(shí)由于芯片技術(shù)限制（51.2T 只能采用100G PAM4新型光模塊遠(yuǎn)不成熟），我們預(yù)估400G Fabric在云公司2023+之后才能大規(guī)模部署，也就是說(shuō)200G Fabric會(huì)有2-3 年生命周期。2020 年私有云混合云和中小型超算，從100G Fabric 升級(jí)到 200G 也可以享受云公司帶來(lái)的技術(shù)紅利。

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

揚(yáng)眉吐氣中國(guó)造

超大規(guī)模云網(wǎng)絡(luò)數(shù)據(jù)中心創(chuàng)新

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

超大規(guī)模云網(wǎng)絡(luò)數(shù)據(jù)中心創(chuàng)新

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

“東數(shù)西算”熱力飆升，數(shù)據(jù)中心轉(zhuǎn)舵向近零碳

大模型的云端構(gòu)想，云廠商的必爭(zhēng)風(fēng)口

AI化革命：大廠如何重新定義數(shù)據(jù)中心的未來(lái)

云計(jì)算對(duì)環(huán)境的影響以及綠化數(shù)據(jù)中心的重要性

本月熱門

AI 原生時(shí)代，字節(jié)想要復(fù)刻第三次增長(zhǎng)奇跡

2024 年預(yù)防網(wǎng)絡(luò)攻擊的 12 項(xiàng)網(wǎng)絡(luò)安全最佳實(shí)踐措施

從5G到6G：開(kāi)啟無(wú)線通信的未來(lái)

2024年上半年中國(guó)云終端市場(chǎng)跟蹤報(bào)告：出貨量達(dá)到166.3萬(wàn)臺(tái)，同比增長(zhǎng)22.4%

DevSecOps建設(shè)標(biāo)桿丨民生證券攜手懸鏡安全，共建敏捷安全開(kāi)發(fā)體系

ESIS 2024第三屆中國(guó)電子半導(dǎo)體數(shù)智峰會(huì)正式啟動(dòng)，邀您共創(chuàng)電子半導(dǎo)體行業(yè)美好未來(lái)!

精選文章

芯軟智控入駐江蘇“5G+工業(yè)互聯(lián)網(wǎng)”公共服務(wù)平臺(tái)

華磊迅拓榮獲2021-2022工業(yè)互聯(lián)網(wǎng)數(shù)字化轉(zhuǎn)型“優(yōu)秀服務(wù)商”“先鋒人物”獎(jiǎng)項(xiàng)

三度合作!光伏加工裝備產(chǎn)品市場(chǎng)占有率全球No.1高測(cè)股份又簽約華磊迅拓

賦能電線電纜行業(yè)數(shù)智化，華磊迅拓跑出“加速度”

區(qū)域經(jīng)濟(jì)高質(zhì)量發(fā)展治理整體解決方案

某企業(yè)風(fēng)險(xiǎn)評(píng)估方案

熱點(diǎn)資訊

喜訊!智邦國(guó)際榮獲“數(shù)智化轉(zhuǎn)型領(lǐng)導(dǎo)品牌”

定了!2024電子信息產(chǎn)業(yè)創(chuàng)新論壇將在北京召開(kāi)

深圳市物聯(lián)傳媒有限公司榮膺廣東省會(huì)展企業(yè)百?gòu)?qiáng)，IOTE物聯(lián)網(wǎng)展再獲殊榮!

監(jiān)管嚴(yán)字當(dāng)頭，智慧合規(guī)管理系統(tǒng)如何助力銀行破局合規(guī)挑戰(zhàn)？

實(shí)力獲贊 | 品高軟件成功入選“2024廣東省數(shù)字經(jīng)濟(jì)服務(wù)百?gòu)?qiáng)企業(yè)”

揚(yáng)眉吐氣中國(guó)造

智慧城市建設(shè)加速推進(jìn)，社區(qū)安防市場(chǎng)發(fā)展空間巨大

超大規(guī)模云網(wǎng)絡(luò)數(shù)據(jù)中心創(chuàng)新

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

“東數(shù)西算”熱力飆升，數(shù)據(jù)中心轉(zhuǎn)舵向近零碳

大模型的云端構(gòu)想，云廠商的必爭(zhēng)風(fēng)口

AI化革命：大廠如何重新定義數(shù)據(jù)中心的未來(lái)

云計(jì)算對(duì)環(huán)境的影響以及綠化數(shù)據(jù)中心的重要性

本月熱門

精選文章

熱點(diǎn)資訊

揚(yáng)眉吐氣中國(guó)造

智慧城市建設(shè)加速推進(jìn)，社區(qū)安防市場(chǎng)發(fā)展空間巨大

“東數(shù)西算”熱力飆升，數(shù)據(jù)中心轉(zhuǎn)舵向近零碳

大模型的云端構(gòu)想，云廠商的必爭(zhēng)風(fēng)口

智慧城市建設(shè)加速推進(jìn)，社區(qū)安防市場(chǎng)發(fā)展空間巨大