今年的新冠疫情讓不少人認(rèn)識(shí)到云計(jì)算的戰(zhàn)略意義:今年5月,IBM 新 CEO 克里希納在上任伊始就表示,IBM將專注于AI和混合云,將它們視為未來的關(guān)鍵技術(shù)。谷歌云計(jì)算部門負(fù)責(zé)人托馬斯·庫里安表示將全力追趕云計(jì)算領(lǐng)頭羊亞馬遜和微軟。
在我國,隨著新基建政策的下發(fā),國內(nèi)各科技巨頭開始強(qiáng)勢布局:阿里云宣布3年 2000 億入局,騰訊清遠(yuǎn)數(shù)據(jù)中心開服。今天,阿里云宣布位于南通、杭州和烏蘭察布的三座超級(jí)數(shù)據(jù)中心正式落成,陸續(xù)開服。
相比于傳統(tǒng)的數(shù)據(jù)中心,超級(jí)數(shù)據(jù)中心是面向未來設(shè)計(jì)打造的,比拼的是技術(shù)能力。因此我們經(jīng)常聽到有關(guān)數(shù)據(jù)中心的黑科技,比如微軟和臉書的海底數(shù)據(jù)中心,華為和AWS推出基于ARM的服務(wù)器,阿里云本次發(fā)布的超級(jí)數(shù)據(jù)中心更是應(yīng)用達(dá)摩院、平頭哥等最新研究成果,在各方面都有技術(shù)升級(jí)。
下面筆者帶大家揭開超級(jí)數(shù)據(jù)中心神秘的面紗。
1、揭秘超級(jí)數(shù)據(jù)中心背后的黑科技
云計(jì)算邊際成本隨著規(guī)模增大而快速降低的效應(yīng)愈發(fā)明顯,比如一個(gè)數(shù)據(jù)中心的土地、電力、制冷等是成本的大頭,增加一臺(tái)服務(wù)器或者計(jì)算節(jié)點(diǎn)新增投入的邊際成本很低,超級(jí)數(shù)據(jù)中心恰恰是這種規(guī)模集約化運(yùn)營模式的終極產(chǎn)物,堪稱是算力之源,服務(wù)底座。
與傳統(tǒng)數(shù)據(jù)中心不同,超級(jí)數(shù)據(jù)中心想通過規(guī)模提高效益,必須要解決大規(guī)模供電、高帶寬數(shù)據(jù)傳輸以及高效率制冷這三大難題,以往這些技術(shù)的透明度不太高,各廠商往往都對這些黑科技諱莫如深。
阿里云本次揭開了這些黑科技的面紗,著實(shí)讓筆者對于超級(jí)數(shù)據(jù)中心的認(rèn)識(shí)更進(jìn)了一步。
巴拿馬電源:一般的數(shù)據(jù)中心尤其是超級(jí)數(shù)據(jù)中心,其供電一般是通過高壓電進(jìn)行配送的,如何將10kV的AC供電轉(zhuǎn)為240V的DC供電,并且控制相應(yīng)損耗一直都是擺在數(shù)據(jù)中心強(qiáng)電工程師面前的難題。
阿里重新定義10kV---240V供電鏈路,對磁路和電路進(jìn)行聯(lián)合設(shè)計(jì),提出最高2.5MW、一體化、模塊化、高效、高可靠直流不間斷電源,省去傳統(tǒng)低壓配電環(huán)節(jié),采用第三代半導(dǎo)體技術(shù)大幅度優(yōu)化電源內(nèi)部結(jié)構(gòu),實(shí)現(xiàn)了高可靠和低成本的目標(biāo)。
只需一臺(tái)巴拿馬電源,可以從中壓10kV AC直轉(zhuǎn)240V DC(或336V DC),讓供電傳輸一步到位,更加高效而可靠。正如1914年開鑿?fù)瓿傻陌湍民R運(yùn)河極大地縮短了太平洋和大西洋之間的航程,巴拿巴電源大幅降低了供電系統(tǒng)的轉(zhuǎn)換損耗。
400G光模塊:內(nèi)部網(wǎng)絡(luò)高速穩(wěn)定的數(shù)據(jù)傳輸,是業(yè)界對于新一代數(shù)據(jù)中心的基本要求,這依賴于光模塊的技術(shù)水準(zhǔn)。
去年末阿里推出了基于硅光技術(shù)的400G DR4光模塊,其帶寬密度提高4倍,網(wǎng)速提升4倍,設(shè)備體積與成本基本沒有增加,目前400G光模塊已在阿里的各大超級(jí)數(shù)據(jù)中心全面投入使用。
液冷服務(wù)器集群:說實(shí)話液冷技術(shù)的確令筆者非常震撼,阿里將這種液冷技術(shù)命名為“麒麟”,這是一種將服務(wù)器被浸泡在特殊的絕緣冷卻液里的制冷方案,由于運(yùn)算產(chǎn)生熱量可被直接吸收進(jìn)入外循環(huán)冷卻,全程用于散熱的能耗幾乎為零,因此這種形式的熱傳導(dǎo)效率比傳統(tǒng)的風(fēng)冷要高百倍,節(jié)能效果超過70%。
“麒麟”系統(tǒng)真正推廣開卻不容易,如果全部使用液冷,那么服務(wù)器硬件故障該如何快速維修,如何快速布線等等,這都是革命性變化,目前全球范圍內(nèi)僅有阿里的一個(gè)數(shù)據(jù)中心大規(guī)模采用了“麒麟”技術(shù)。
未來3到5年,阿里計(jì)劃將所有數(shù)據(jù)中心全面使用液冷。想想看,如果全國的數(shù)據(jù)中心都采用液冷技術(shù),一年可節(jié)省上千億度電,逐步實(shí)現(xiàn)低碳數(shù)據(jù)中心的目標(biāo)。
2、分散布署的邏輯:不把雞蛋放在一個(gè)籃子里
云計(jì)算市場最大的特點(diǎn)是勝者通吃,誰占據(jù)市場第一的位置,誰降低成本,以更低的價(jià)格形成擠出效應(yīng)。因此各大科技巨頭都有強(qiáng)烈的規(guī)模化、集中化的訴求。
各巨頭的數(shù)據(jù)中心選址卻并不集中,比如阿里本次的數(shù)據(jù)中心布署在了南通、杭州和烏蘭察布三地,每個(gè)地域都采用了3AZ設(shè)計(jì)。筆者認(rèn)為這種情況的出現(xiàn)關(guān)鍵在于“不能把雞蛋放在同一個(gè)籃子里”。這種數(shù)據(jù)中心布署,一般要滿足以下原則。
就近原則:分別接近京津冀、長三角、珠三角經(jīng)濟(jì)帶
3AZ設(shè)計(jì):每個(gè)數(shù)據(jù)中心都采用3AZ設(shè)計(jì),一份數(shù)據(jù)會(huì)在一個(gè)數(shù)據(jù)中心的三個(gè)AZ里做備份,防止數(shù)據(jù)丟失。
全球性廣泛布署數(shù)據(jù)中心有一些就近服務(wù)規(guī)劃方面的優(yōu)勢,是集中布署的數(shù)據(jù)中心所不具備的。
今年年初,聯(lián)合國在紐約總部宣布騰訊成為全球合作伙伴,為聯(lián)合國成立75周年提供全面技術(shù)方案,其中騰訊會(huì)議、企業(yè)微信和騰訊同傳為這場有史以來最大規(guī)模的全球?qū)υ捥峁┻h(yuǎn)程會(huì)議服務(wù),支持疫情期間的在線會(huì)議活動(dòng)。
騰訊能脫穎而出,正因?yàn)轵v訊會(huì)議依托騰訊全球的數(shù)據(jù)中心,實(shí)現(xiàn)了在復(fù)雜網(wǎng)絡(luò)環(huán)境的高抗性自適應(yīng)。同時(shí)騰訊會(huì)議的調(diào)度系統(tǒng)綜合考慮用戶所在位置、運(yùn)營商、網(wǎng)絡(luò)和鏈路質(zhì)量情況,動(dòng)態(tài)選擇最佳接入點(diǎn),有效地保障“最后一公里”的接入質(zhì)量。從而支撐全球不同國家不同地點(diǎn)的同時(shí)接入服務(wù),這是集中布署的數(shù)據(jù)中心所不能具備的優(yōu)點(diǎn)。
3、異地?cái)?shù)據(jù)中心:災(zāi)備體系之根
前不久,微盟因人為惡意刪庫,使得其業(yè)務(wù)自發(fā)生中斷,直到一周多以后才全面找回?cái)?shù)據(jù)。縱然業(yè)界普遍一般公司有5%左右的概率發(fā)生重大信息系統(tǒng)災(zāi)難,一旦故障發(fā)生,企業(yè)損失巨大。異地?cái)?shù)據(jù)中心的災(zāi)備體系建設(shè)可以將這類事故的影響降到最低。
在講災(zāi)備體系之前,我們先來明確評(píng)價(jià)業(yè)務(wù)連續(xù)性的兩個(gè)重要指標(biāo):
RTO(Recovery Time Objective):RTO是指災(zāi)難發(fā)生后,從IT系統(tǒng)崩潰導(dǎo)致業(yè)務(wù)停頓開始,到IT系統(tǒng)完全恢復(fù),業(yè)務(wù)恢復(fù)運(yùn)營為止的這段時(shí)間長度。RTO用于衡量業(yè)務(wù)從停頓到恢復(fù)的所需時(shí)間。
RPO(Recovery Point Objective):IT系統(tǒng)崩潰后,可以恢復(fù)到某個(gè)歷史時(shí)間點(diǎn),從歷史時(shí)間點(diǎn)到災(zāi)難發(fā)生的時(shí)間點(diǎn)的這段時(shí)間長度就稱為RPO。RPO用于衡量業(yè)務(wù)恢復(fù)所允許丟失的數(shù)據(jù)量。
簡單來講RTO是災(zāi)難發(fā)生后業(yè)務(wù)中斷的時(shí)間,RPO是災(zāi)難發(fā)生后數(shù)據(jù)丟失的數(shù)量。
一般來說目前比較流行的災(zāi)備體系是至少建設(shè)三個(gè)數(shù)據(jù)中心:
主中心:正常情況下全面提供業(yè)務(wù)服務(wù)。
同城中心:一般使用同步復(fù)制的方式來向同城災(zāi)備中心傳輸數(shù)據(jù),保證同城中心數(shù)據(jù)復(fù)本為最新,隨時(shí)可以接管業(yè)務(wù),以保證RTO的指標(biāo)。但是同城中心無法應(yīng)對此類刪庫事件。
異地中心:一般使用延時(shí)異步復(fù)制(延時(shí)時(shí)間一般為30分鐘左右)的方式向異地災(zāi)備中心傳輸數(shù)據(jù),其中同步復(fù)制的好處是一旦主中心被人工破壞,那么不會(huì)立刻涉及異地中心。以保證RPO的指標(biāo)。
一句話總結(jié)災(zāi)備體系的最佳實(shí)踐就是兩地三中心;同城保證業(yè)務(wù)連續(xù)性,優(yōu)先負(fù)責(zé)用戶體驗(yàn);異地保證數(shù)據(jù)連續(xù)性,確保企業(yè)生存底線。
不少企業(yè)尤其是創(chuàng)業(yè)型企業(yè)在異地中心的建設(shè)上投入還不夠,一旦發(fā)生刪庫事件就影響是致命的。所以當(dāng)企業(yè)發(fā)展到一定規(guī)模以后,必須考慮建設(shè)跨異地?cái)?shù)據(jù)中心的災(zāi)備體系,以此來應(yīng)對風(fēng)險(xiǎn)。
十年前,IT界普遍流傳著一句話叫做“代碼正在吞沒世界”,現(xiàn)在人們才真正醒悟原來云計(jì)算才是背后的那個(gè)大BOSS。如今,隨著云原生和無服務(wù)器計(jì)算模式的普遍應(yīng)用,云服務(wù)模式正在被重新定義。數(shù)據(jù)中心作為云的底座越來越有成為IT行業(yè)的C位的趨勢,未來值得期待。