阿里云彈性計算負(fù)責(zé)人蔣林泉:億級場景驅(qū)動的技術(shù)自研之路

劉丹
近年來隨著云計算如火如荼的發(fā)展,上云已經(jīng)成為當(dāng)前企業(yè)的必經(jīng)路徑。但在國內(nèi)良莠不齊的云服務(wù)市場下,云服務(wù)器的選型評估長期困擾著企業(yè)。為此,阿里云彈性計算一直堅持為不同行業(yè)及企業(yè)提供垂直實例產(chǎn)品,提高用戶體驗,有針對性地解決行業(yè)特色問題并且?guī)碜顑?yōu)的性價比。

近年來隨著云計算如火如荼的發(fā)展,上云已經(jīng)成為當(dāng)前企業(yè)的必經(jīng)路徑。但在國內(nèi)良莠不齊的云服務(wù)市場下,云服務(wù)器的選型評估長期困擾著企業(yè)。為此,阿里云彈性計算一直堅持為不同行業(yè)及企業(yè)提供垂直實例產(chǎn)品,提高用戶體驗,有針對性地解決行業(yè)特色問題并且?guī)碜顑?yōu)的性價比。

阿里云彈性計算負(fù)責(zé)人蔣林泉

本期《問底中國IT技術(shù)演變》,我們有幸采訪到阿里云彈性計算負(fù)責(zé)人蔣林泉先生,就彈性計算的應(yīng)用現(xiàn)狀、技術(shù)解析、垂直產(chǎn)品以及未來趨勢等方面,解剖阿里云彈性計算的技術(shù)演進(jìn)過程,以此探析整個行業(yè)的發(fā)展趨勢。

沒有世界量級的業(yè)務(wù),何來安全、穩(wěn)定的技術(shù)?

“書上沒有教你怎么做云計算,真正告訴我們怎么樣把云計算做好的是客戶,是更多廣泛客戶的需求逼迫著我們的技術(shù)不停地往前走。”蔣林泉從事云計算多年,這是他最大的感受。

阿里云交出十年成績單,自2009年成立以來付費用戶超百萬,市場份額等于第2到8名總和。歷經(jīng)十年發(fā)展,其用戶從最初中小網(wǎng)站,到中型互聯(lián)網(wǎng)客戶,再到大型互聯(lián)網(wǎng)客戶和頭部央企,廣泛的客戶涉及行業(yè)之多,幾乎覆蓋所有領(lǐng)域。

隨著企業(yè)核心系統(tǒng)全棧上云以及業(yè)務(wù)場景增多帶來的復(fù)雜性,用戶對于云廠商能否提供更加出色的“彈性計算”服務(wù)提出了新的要求,比如高穩(wěn)定、高安全、高性能、低延遲、低成本等等。這一系列看似苛刻的要求,在阿里云眼里卻成為不斷驅(qū)動他們向前的動力,在計算服務(wù)打磨上不斷突破,大膽吸收了更多的前沿技術(shù)。

大量企業(yè)級用戶遷移至阿里云后,不同視角的訴求鋪天蓋地而來,其中穩(wěn)定性往往是企業(yè)最關(guān)心的;其次是性能的平穩(wěn)性,客戶往往對計算、網(wǎng)絡(luò)、存儲有著預(yù)期的性能需求,因此對于一個云計算服務(wù)商來說,沉淀的用戶越多通常代表了業(yè)務(wù)越成熟,可以承擔(dān)更大的負(fù)載。另外,企業(yè)客戶對計算產(chǎn)品的需求方式眾多,要想交付所有形態(tài),就必須保證多種計算形態(tài)的無死角覆蓋。

隨著需求升級,早期的彈性計算已經(jīng)無法滿足客戶更高的要求,這時云廠商不僅要考慮提升技術(shù)含量,同時也要不斷提升產(chǎn)品的性能品質(zhì)。對此,阿里云不斷突破技術(shù)難題,用超高的穩(wěn)定性、可預(yù)期的性能以及豐富的產(chǎn)品覆蓋度,針對用戶最為核心的關(guān)注點,滿足客戶需求。一系列產(chǎn)品與技術(shù)的推出與優(yōu)化,不難看出從“入門級”到“企業(yè)級”的轉(zhuǎn)變,不僅詮釋了阿里云彈性計算的技術(shù)演進(jìn),更是用戶驅(qū)動阿里云技術(shù)成熟的最好佐證。

不自研每一行代碼,何以支撐百萬用戶的穩(wěn)定、可靠?

“很幸運,我們選擇了自研,無論是平臺管控、運維、調(diào)度還是底層的大部分虛擬化架構(gòu),有一支可以完全把控代碼的團(tuán)隊,與客戶有效的需求形成良好的化學(xué)反應(yīng),這些化學(xué)反應(yīng)讓我們的路越走越寬,這樣的競爭力讓我們信心倍增。”

可想而知,從0到1過程中的艱辛不言而喻,然而自研在掌控力、業(yè)務(wù)創(chuàng)新、穩(wěn)定性、可拓展性上帶來的優(yōu)勢很快便體現(xiàn)了出來,例如:阿里云推出的自研“神龍架構(gòu)”彈性裸金屬服務(wù)器就是其中之一,它融合了物理機(jī)和虛擬機(jī)的特性,提供了與傳統(tǒng)物理機(jī)無差別的高計算性能;同時,物理機(jī)級別的隔離,提供給客戶安全、可靠、穩(wěn)定、獨占的計算資源;神龍還具備全線阿里云產(chǎn)品兼容、提供更多和更完整的云端解決方案、及分鐘級交付能力,靈活從容應(yīng)對業(yè)務(wù)需求。

客戶在不停地變,客戶平臺與規(guī)模也在變,阿里云的技術(shù)團(tuán)隊可以靈活控制代碼和它的所有進(jìn)化,這對于整個系統(tǒng)的演進(jìn)、掌控力以及客戶價值都是極其重要的。

盡管社區(qū)中一些開源的代碼唾手可得,但隨著技術(shù)的演進(jìn),后續(xù)的掌控會越來越難。因為大量不同客戶的涌入,使得別人家的代碼無論是在規(guī)模性、穩(wěn)定性、對需求的效果以及可拓展性上一般都帶著天然的劣勢。此時再看自研的道路,雖然壓力很大,但終會苦盡甘來。

蔣林泉感慨到,很多云廠商選擇走“捷徑”,直接用開源技術(shù)搭建平臺,看起來是“短、平、快”,實現(xiàn)快速上線的效果;但是過于依賴開源技術(shù),意味著企業(yè)缺少自主演進(jìn)能力。更重要的是,十年的堅持,平臺,軟硬件結(jié)合,研發(fā)團(tuán)隊完全掌握全棧每一行的代碼,讓彈性計算在穩(wěn)定性,性能,彈性,功能體驗的創(chuàng)新迭代上有充足的底氣,給我們的客戶持續(xù)提供世界領(lǐng)先的服務(wù)。

沒有雙11網(wǎng)絡(luò)狂歡,何來技術(shù)極限的挑戰(zhàn)?

“云計算的發(fā)展并不是一帆風(fēng)順的,我們這些工程師面臨著業(yè)務(wù)與技術(shù)上的雙重壓力,為滿足客戶各方面的需求,逼迫我們這些技術(shù)人員也要更懂客戶。所以能在云計算挑戰(zhàn)下活過來的這群人,必然經(jīng)歷了更殘酷的鍛煉。”蔣林泉堅定地說。

當(dāng)年,阿里巴巴開創(chuàng)“雙11”購物節(jié)時,放眼國內(nèi)外IT產(chǎn)業(yè),無一廠商能支撐其龐大的數(shù)據(jù)流和數(shù)據(jù)計算需求。

馬云決定:“既然沒有,我們就來做!”

2009年,對于科技領(lǐng)域來說注定不平凡,不僅誕生了讓全世界為之震驚的“雙11”購物節(jié),同時阿里自主的云技術(shù)也在倒逼中橫空出世。時至今日,阿里云擁有世界級的技術(shù)實力,其數(shù)據(jù)計算能力可以支撐不斷刷新記錄的“雙11”,且?guī)ьI(lǐng)國內(nèi)企業(yè)順利出海,去幫助各行各業(yè)應(yīng)對社會高速發(fā)展所帶來的“極限挑戰(zhàn)”。

成功永遠(yuǎn)都只屬于默默耕耘的人,所以這絕對不是一場沒有準(zhǔn)備的戰(zhàn)爭。隨著越來越多業(yè)務(wù)場景的涌現(xiàn),我們看到了視頻中源源不斷的彈幕、一次次節(jié)日秒殺、微博熱點事件……每一波空前的網(wǎng)絡(luò)狂歡,背后都是對技術(shù)的極限挑戰(zhàn)。

風(fēng)光背后如何保證這些云服務(wù)器在無數(shù)互聯(lián)網(wǎng)狂歡中持續(xù)輸出穩(wěn)定的性能,成為蔣林泉團(tuán)隊所肩負(fù)的重?fù)?dān)。如何在業(yè)務(wù)高峰時,在短短幾秒內(nèi)處理幾十萬甚至上百萬的數(shù)據(jù)包,這就要求云主機(jī)可以同時處理來自四面八方發(fā)放的請求,并且保持穩(wěn)定的網(wǎng)絡(luò) PPS 性能指標(biāo)。

據(jù)了解,2012年,阿里云第一代云主機(jī)的PPS是20-30萬每秒,而直接用物理機(jī)千兆網(wǎng)卡發(fā)包的話,速率能達(dá)到120萬每秒,十分嚴(yán)重的性能損耗主要來自虛擬化過程中,虛擬機(jī)必須通過物理機(jī)連接網(wǎng)絡(luò),而這樣的速度根本無法支撐某一特定時間段內(nèi)的用戶集中爆發(fā)。

正所謂技術(shù)的極限就是不斷被挑戰(zhàn),2015年,通過硬件和軟件的兩個進(jìn)步,阿里云將萬兆網(wǎng)卡上的 PPS 從上一代的30萬每秒提高到了120萬每秒;待到2017年,阿里云通過將網(wǎng)絡(luò)上的信息繞開內(nèi)核,即用戶態(tài)直通虛擬機(jī),繞過了物理機(jī)的內(nèi)核“跳板”,為每一次信息傳輸節(jié)省大量的時間,完成了我們原本無法想象的“450萬每秒”的極限挑戰(zhàn)。

每一次空前的網(wǎng)絡(luò)狂歡,不僅完美地詮釋著計算的永不停歇,更不斷地挑戰(zhàn)著技術(shù)的極限,而阿里云憑借一次次技術(shù)的迭代與更新,追尋著更多未知的可能。

不持續(xù)創(chuàng)新深耕,何以引領(lǐng)云計算行業(yè)的砥礪前行?

正如蔣林泉反復(fù)提到的,是用戶教會了阿里云如何更好地將彈性計算發(fā)揮到極致,如何讓更多的新產(chǎn)品不斷滿足用戶需求,對于蔣林泉來說是挑戰(zhàn),更是動力。

隨著深度學(xué)習(xí)算法的突破,人工智能技術(shù)得到了更迅猛的發(fā)展,以異構(gòu)計算為代表的新加速計算單元以及智能制造、基因計算等新興行業(yè)的進(jìn)步,不斷催生著大量計算類需求,這再一次促使著阿里云彈性計算去布局更多高性價比的產(chǎn)品及更先進(jìn)的技術(shù)研發(fā)。

據(jù)了解,阿里云不斷在增加新的實例類型,豐富企業(yè)級計算家族;未來彈性計算將會利用人工智能等先進(jìn)技術(shù),在穩(wěn)定性與安全性上持續(xù)深耕,為保障永不停機(jī)的計算服務(wù)奮勇前行,并利用最新一代的網(wǎng)絡(luò)技術(shù),保證產(chǎn)品性價比與可預(yù)期的性能穩(wěn)定。

為保證用戶無憂上云、用云,像用水電一樣放心靈活地使用計算資源,阿里云將不忘初心,持續(xù)不斷為用戶帶來更好的體驗。正如蔣林泉所說,彈性計算的作用本質(zhì)上就是解放人類的力量,讓更多的技術(shù)去做事,從而提升全社會的效能。

THEEND