在去年的AWS re:Invent大會(huì)上,AWS全球基礎(chǔ)架構(gòu)和客戶支持資深副總裁Peter DeSantis在主題演講中分享了AWS基礎(chǔ)網(wǎng)絡(luò)支撐高性能計(jì)算,以及讓傳統(tǒng)計(jì)算密集型應(yīng)用更好地運(yùn)用云共享性特性的秘訣;今年,他從運(yùn)營(yíng)的角度,延伸至半導(dǎo)體和數(shù)據(jù)中心可持續(xù)發(fā)展等領(lǐng)域,揭秘AWS在基礎(chǔ)架構(gòu)底層運(yùn)維和構(gòu)建上的一些思考。
他的講話有哪些值得關(guān)注的地方?我們來(lái)做一下深度解讀。
穩(wěn)定運(yùn)營(yíng),如何做到?
Everything fails,all the time.
——Amazon CTO Werner Vogels
正如Werner所說(shuō),構(gòu)建云的時(shí)候,任何環(huán)節(jié)都可能出現(xiàn)問(wèn)題,不出問(wèn)題幾乎不可能。
2018年,AWS在re:Invent上曾公布過(guò)過(guò)一個(gè)數(shù)據(jù):與AWS規(guī)模最接近的另一家服務(wù)商,云服務(wù)的宕機(jī)時(shí)間是AWS的7倍多。當(dāng)時(shí)就有人關(guān)注,AWS是如何做到支撐起巨大規(guī)模的云服務(wù)的同時(shí),保持穩(wěn)定、可靠的運(yùn)營(yíng)?Peter在今年的演講中就為大家進(jìn)行了揭秘。
總的來(lái)說(shuō),從細(xì)節(jié)著手,是AWS支撐如此大規(guī)模且復(fù)雜的基礎(chǔ)架構(gòu),同時(shí)保持運(yùn)營(yíng)穩(wěn)定可靠的秘訣。
供電
具體來(lái)講,首先是從供電層面保證穩(wěn)定性。對(duì)于任何基礎(chǔ)設(shè)施,供電都是關(guān)鍵所在,包括數(shù)據(jù)中心。一般從電網(wǎng)拿到電后,AWS經(jīng)過(guò)Switch Gear配電控制系統(tǒng)供應(yīng)電力,其中的UPS備用電源系統(tǒng)可以在電網(wǎng)供電出現(xiàn)問(wèn)題時(shí)馬上接管電源,保證服務(wù)不中斷,同時(shí)啟動(dòng)發(fā)電機(jī)組,為電池持續(xù)充電,直到電力恢復(fù)。
Peter解釋道,一個(gè)完整的配電控制系統(tǒng),一般包括三個(gè)關(guān)鍵組件部分:發(fā)電機(jī)、配電開關(guān)控制系統(tǒng)與UPS系統(tǒng)。
發(fā)電機(jī)組相對(duì)來(lái)說(shuō)是最簡(jiǎn)單的,AWS的基本邏輯就是加一組冗余發(fā)電機(jī),發(fā)電機(jī)壞掉之后可以用另一臺(tái)替換。
配電開關(guān)系統(tǒng)相對(duì)復(fù)雜,有一個(gè)專門名詞叫做e-house,是用低壓或中壓的控制開關(guān)和繼電器來(lái)控制線路切斷。但是傳統(tǒng)的開關(guān)控制系統(tǒng)內(nèi)嵌的軟件是預(yù)先設(shè)定無(wú)法改變的,很多功能設(shè)計(jì)并不適合AWS使用。為了適應(yīng)AWS的需求,他們自己做了一套配電開關(guān)系統(tǒng),保證在發(fā)生事故時(shí),AWS可以最快的速度和極簡(jiǎn)的流程處理故障。
UPS系統(tǒng)更加復(fù)雜,因?yàn)閭鹘y(tǒng)的UPS控制產(chǎn)品功能復(fù)雜,但并不一定是AWS需要的,且UPS的鉛酸電池質(zhì)量重,危險(xiǎn)性高,非常不利于數(shù)據(jù)中心的安全。AWS的做法是把鉛酸電池做成多個(gè)小的電池,與機(jī)架的的冗余電池搭配使用,用自己開發(fā)的控制系統(tǒng)來(lái)掌控UPS,從而降低了復(fù)雜性和鉛酸電池的破壞力。
任何環(huán)節(jié)都可能會(huì)壞,減小壞的環(huán)節(jié)對(duì)客戶的影響,是AWS維護(hù)供電穩(wěn)定的基本思路。
數(shù)據(jù)中心
接下來(lái)回到數(shù)據(jù)中心本身。2001年,當(dāng)AWS還不存在的時(shí)候,Amazon run在西雅圖就已經(jīng)有了數(shù)據(jù)中心。在這個(gè)海嘯和地震頻發(fā)的地方,AWS積累了一些數(shù)據(jù)中心建設(shè)的經(jīng)驗(yàn)。
比如不能把所有設(shè)備都放在一個(gè)數(shù)據(jù)中心,數(shù)據(jù)中心之間要有適當(dāng)?shù)木嚯x,以減少災(zāi)害帶來(lái)的破壞。
兩個(gè)數(shù)據(jù)中心的延遲至少有70毫秒,這是物理距離決定的,無(wú)法改變。但減小延遲帶來(lái)的影響,AWS在綜合考慮了火災(zāi)、雷電、龍卷風(fēng)、海嘯、地震等等所有因素的破壞半徑之后,發(fā)現(xiàn)了數(shù)據(jù)中心之間的最優(yōu)距離是數(shù)十英里,并在這個(gè)距離的基礎(chǔ)上保證數(shù)據(jù)中心的延遲在一毫秒之內(nèi),最大程度保證數(shù)據(jù)中心之間的獨(dú)立性。
與其他云服務(wù)商數(shù)據(jù)部署的理念有所不同,AWS會(huì)細(xì)分區(qū)域和可用區(qū)(Available Zone)的區(qū)別:
1)遠(yuǎn)距離的可用區(qū)設(shè)置,可以降低自然災(zāi)難(火災(zāi),水災(zāi)…)帶來(lái)的業(yè)務(wù)中斷風(fēng)險(xiǎn);
2)用戶選擇最近站點(diǎn)接入以低延遲訪問(wèn)AWS云資源;
3)AWS分別管理每個(gè)區(qū)域中的運(yùn)維,每個(gè)AZ都有獨(dú)立的網(wǎng)絡(luò)和連接,將故障分割。
此外,AWS數(shù)據(jù)中心的設(shè)計(jì)邏輯,重點(diǎn)是要去除人的干擾。人可以成就一切,也可以破壞一切。因此,要保證每個(gè)區(qū)域之間的運(yùn)營(yíng)完全獨(dú)立,互不干擾,當(dāng)客戶在全球部署跨多個(gè)區(qū)域,就可以減小破壞帶來(lái)的影響。
目前,AMS有遍及24個(gè)地理區(qū)域的77個(gè)可用區(qū)(AZ),并已公布計(jì)劃在澳大利亞、印度、印度尼西亞、日本、西班牙和瑞士新建6個(gè)AWS區(qū)域、18個(gè)可用區(qū)。
半導(dǎo)體
AWS有自己的半導(dǎo)體,以更好地適應(yīng)規(guī)?;\(yùn)營(yíng)的獨(dú)特需求。
2015年,以色列半導(dǎo)體公司Annapurnalabs被AWS收購(gòu)后,就成為后者自己的半導(dǎo)體供應(yīng)者,從最早的Nitro 1,到2021年將要發(fā)布的Nitro 4,都是AWS云服務(wù)的硬件支撐。
AWS云平臺(tái)可以通過(guò)AWS Nitro控制器向Amazon EC2添加網(wǎng)絡(luò),存儲(chǔ)和安全資源,比如在EC2 Mac實(shí)例中,AWS在Mini上安裝了Nitro Controller,沒(méi)有Hypervisor的Nitro Controller可以安全快速地連接到Mac Mini。通過(guò)Nitro接口,可以連接到EC2和EBS等服務(wù)。據(jù)悉,Mac Mini現(xiàn)在可以使用任何本地AWS服務(wù)。
AWS Nitro芯片發(fā)展迅速,最新版本version 4為新的C6gn實(shí)例提供了動(dòng)力。
此外,AWS Inferentia是AWS在云上最高性價(jià)比專門做推理的芯片,搭配Nitro,可以快速地?cái)U(kuò)展到EC2實(shí)例。在機(jī)器學(xué)習(xí)領(lǐng)域,AWS透露今年下半年還會(huì)正式推出另一個(gè)芯片產(chǎn)品——AWS Trainium,屆時(shí)將給開發(fā)者帶來(lái)怎樣的能力,我們可以期待一下。
綠色節(jié)能
去年,AWS曾正式宣布過(guò)要在2030年完成一個(gè)目標(biāo)——讓整個(gè)Amazon所使用的數(shù)據(jù)中心100%使用再生能源。而現(xiàn)在,AWS把實(shí)現(xiàn)這個(gè)目標(biāo)的時(shí)間提早了很多5年,爭(zhēng)取在2025年100%利用可再生能源。今年,Peter特地匯報(bào)了這個(gè)目標(biāo)目前的一些進(jìn)展。
451 Research的調(diào)查研究結(jié)果顯示,AWS的基礎(chǔ)設(shè)施的能源效率是被調(diào)查的美國(guó)企業(yè)數(shù)據(jù)中心中位數(shù)的3.6倍。這種優(yōu)勢(shì)的三分之二以上歸因于更節(jié)能的服務(wù)器數(shù)量和更高的服務(wù)器利用率。
AWS通過(guò)多種措施實(shí)現(xiàn)綠色節(jié)能:
●提高用水效率,減少用于冷卻數(shù)據(jù)中心的飲用水的使用。AWS通過(guò)評(píng)估每個(gè)AWS區(qū)域的氣候模式、當(dāng)?shù)厮Y源管理和可用性以及保護(hù)飲用水水源的機(jī)會(huì)來(lái)制定用水戰(zhàn)略。
●2020年5月,亞馬遜宣布了五個(gè)新的公用事業(yè)規(guī)模的太陽(yáng)能項(xiàng)目,為中國(guó)、澳大利亞和美國(guó)的全球業(yè)務(wù)提供電力,一共增加615 MW再生能源發(fā)電能力,預(yù)計(jì)每年發(fā)電120萬(wàn)MW。
●今年3月,亞馬遜宣布在澳大利亞、西班牙、瑞典和美國(guó)投資四個(gè)新的可再生能源項(xiàng)目,這些項(xiàng)目預(yù)計(jì)每年將產(chǎn)生大約840,000 MWh的能源和額外產(chǎn)生近300 MW的可再生能源發(fā)電能力。
●在數(shù)據(jù)中心建設(shè)的水泥生產(chǎn)過(guò)程中,AWS在混凝土生產(chǎn)中添加CO2和使用補(bǔ)充水泥材料來(lái)進(jìn)一步減少CO2的排放。
2020年,亞馬遜對(duì)可再生能源的總投資項(xiàng)目已達(dá)到35個(gè),裝機(jī)容量超過(guò)4 GW,這也是目前世界上單一企業(yè)在1年內(nèi)對(duì)可再生能源的最大的一筆投資。這些新項(xiàng)目將使亞馬遜所擁有的可再生能源的的總裝機(jī)容量在2020年達(dá)到6.5 GW,并成為有史以來(lái)最大的企業(yè)可再生能源采購(gòu)商。
以上為Peter DeSantis今年對(duì)AWS基礎(chǔ)架構(gòu)趨勢(shì)深度剖析的全部?jī)?nèi)容,你對(duì)哪部分最感興趣?歡迎留言討論~