本文來自腦極體,作者/藏狐。
“當其下筆風雷快,筆所未到氣已吞”,看到阿里云CIPU發(fā)布的消息,我腦海里第一時間冒出了蘇軾的這句詩。
開啟工業(yè)革命序幕,讓蒸汽機、鐵路和煤炭成為主要能源的是英國發(fā)明家瓦特;讓燈泡和電力走入所有人生活的,是美國發(fā)明家愛迪生;現代計算機和互聯網成為信息時代的基礎設施,變革誕生在美國西海岸。今天,所有人都將算力看作第四次工業(yè)革命的基本能源,將與千行百業(yè)、社會經濟產生深刻而綿長的化學反應,那么這一次,算力基礎設施可以由中國來定義嗎?
顯然,阿里云想嘗試一下,并且已經邁出了關鍵的一步——正式發(fā)布為新型云數據中心設計的專用處理器CIPU,展現出取CPU而代之的氣勢。
CPU制霸計算產業(yè)半個世紀之久,CIPU要另起爐灶何其難也。作為讀者或許會疑問三連:憑什么?為什么?怎么做?我們不想直接給答案,從大家感興趣的問題出來進行邏輯推演,讀者自然會思考并得出自己的答案。
提筆:憑什么是中國?
有一句流行歌詞:沒有人能在我的BGM里打敗我。聽起來十分自信,不過,這份自信很長一段時間是屬于美國的。1971年,英特爾生產的4004微處理器標志著CPU的誕生,隨后與微軟的Windows系統(tǒng)一起組成了著名的“Wintel”聯盟,成為計算產業(yè)的現實標準,被廣泛應用于PC、高性能服務器以及云服務器中。而眾所周知,獲取算力的方式,無外乎本地硬件(數據中心)、云計算兩種。也就是說,以CPU為中心的計算架構主宰了信息時代,支撐了云計算的崛起。
在這種局面下,中國廠商打算寫一段全新的旋律,讓別人主動走進自己的BGM里,憑什么?
首先,CPU這張舊船票,可能登不上算力時代的船。英特爾CEO早在幾年前就表示過“摩爾定律已死”,CPU性能提升的速度早已放緩,而隨著數字化的推進,數據規(guī)模、結構和來源越來越廣,單一CPU為中心的計算架構,無法滿足激增的算力需求,計算架構的創(chuàng)新是現實所需。
其次,圍繞CPU形成的服務器、操作系統(tǒng)、中間件、數據庫和基礎軟件等應用及相關服務,很長一段時間內都掌握在歐美主流云廠商手中,中國數字經濟要長期可持續(xù)發(fā)展,對于算力基礎設施自然希望有更多選擇,這給中國廠商創(chuàng)造了新的機會。
當然,頭部云廠商從業(yè)務、戰(zhàn)略等維度也早就意識到了以CPU為中心的隱患,紛紛開始探索新的算力硬件解決方案。近年來多樣性計算架構不斷涌現,比如谷歌發(fā)布了TPU,AWS發(fā)布Arm架構的云服務器,英偉達嘗試收購ARM以擴展數據中心業(yè)務。圖靈獎得主大衛(wèi)·帕特森與約翰·漢尼斯認為,接下來將是計算架構更新的黃金十年。如果不想在第四次工業(yè)革命中依然重復別人的故事,那么,中國就必須在計算架構上落下屬于自己的一筆。
落筆:為什么是云計算?
如前所說,CPU在本地和云都有應用,為什么架構創(chuàng)新會率先從云開始呢?答案其實也很簡單,更新的圖紙有更大自由發(fā)揮的空間。
第四次工業(yè)革命從云開始,對于中國千行百業(yè)的數字化來說,直接調用彈性、高并發(fā)、異構的云端算力是更理想的選擇;中國云廠商在技術能力、市場規(guī)模、生態(tài)方面與全球巨頭在相同起跑線,像阿里云已經成長為與AWS、微軟Azure等同象限的頭部云廠商;更重要的是,方興未艾的數字經濟催生了新的算力需求和技術挑戰(zhàn),以CPU為中心的云計算架構越來越力不從心,中國云廠商有著更大的創(chuàng)新空間。
簡單來說,云計算架構的創(chuàng)新方向主要有幾個:
1.性能升級。云計算一定是性能先行,才能成為千行百業(yè)數字化的算力底座,尤其是第四次工業(yè)革命中智能技術的大量應用,深度學習對于算力資源的消耗是極大的,要求云處理器提供更強的算力,實現每比特性能最優(yōu)。不僅需要硬件升級,創(chuàng)新傳統(tǒng)計算架構,提升單位算力的效率;還需要軟件升級,解決軟件定義虛擬化中出現的資源損耗。
2.業(yè)務效益。各行各業(yè)使用云服務,不單單是降低服務器成本還希望通過云為管道引入新技術,對大量業(yè)務數據進行分析處理,釋放數據價值,也就是說單位算力所能貢獻的GDP要提高。數據密集型的計算越來越多,算力分布在邊、端、云、網等多個維度,數據的遷移量和吞吐率也增多,解決超大規(guī)模分布式集群之間網絡傳輸、管理的問題,才能滿足客戶對低時延、高帶寬的需求。
3.綠色低碳。上云用數賦智成為趨勢,計算無處不在,算力基礎設施的能耗問題也引發(fā)社會關注,計算產業(yè)的可持續(xù)發(fā)展,需要低功耗、高性能的并發(fā)處理能力,減少虛擬化中的損耗,以達到單位比特的能效比最優(yōu),滿足各行各業(yè)綠色低碳、節(jié)能減排的發(fā)展需求。
方興未艾的云計算,相當于一張更新的圖紙,等待著人來書寫底層計算架構范式轉換的新篇章,而阿里云用CIPU率先落下了遒勁的一筆。
入木:CIPU怎么解開算力桎梏?
計算架構更新,是必然的未來,對于中國云廠商來說,怎樣在自己擅長的技術賽道上建立起差異化優(yōu)勢,就成了當務之急??v覽全球領先的計算廠商,谷歌專門發(fā)布了應對AI任務的TPU,亞馬遜在云服務器、云端AI推理芯片上也有所突破,以GPU為主營業(yè)務的英偉達也嘗試進入數據中心業(yè)務推出DPU,老牌廠商英特爾也推出IPU,國內也有云廠商推出了自己的計算硬件。
需要注意的是,云端算力實際上受非常多的條件影響,除了芯片的比拼,還有網絡、算法優(yōu)化、集群性能、部署環(huán)境、數據處理能力、框架等一系列要素,整體決定了云計算的優(yōu)越性。阿里云為新型云數據中心設計的專用處理器CIPU,正是考慮到云時代的算力所需,從三個層面進行管控并加速,來解開算力桎梏。
·網絡加速。云和硬件的結合,必須依靠網絡,管理阿里云全球上百萬臺服務器并非易事。試想一下,將不同地區(qū)數據中心的算力進行調配傳輸,如果網絡不給力,必然會導致數據傳輸慢、計算慢,大量實時性要求高的任務如自動駕駛、遠程醫(yī)療、在線教育等,體驗就會受到影響。傳統(tǒng)以CPU為中心的架構可沒辦法把手伸到網絡層,而CIPU因為接入飛天云操作系統(tǒng),可以直接通過飛天上的洛神云網絡管控物理網絡,進行硬件加速,構建大規(guī)模的分布式RDMA高性能網絡,基礎帶寬從100G升級至200G,網絡時延從22us降低至16us,因此AI任務、科學計算等上云之后,比自建物理機的集群吞吐量提升了30%,延遲自然也就大大下降了。
·存儲加速。大量云上客戶希望充分釋放數據價值,高吞吐、高并發(fā)的數據存算,如果存儲系統(tǒng)跟不上,相當于一臺跑車的油箱只有摩托車那么大,發(fā)動機再強勁也跑不快。傳統(tǒng)CPU以計算為中心的設計,數據搬運中往往會產生“存儲墻”和“功耗墻”,一定程度上影響了并行計算效率。同樣的,CIPU與飛天操作系統(tǒng)相結合,能夠接入存算分離架構的塊存儲,并進行硬件加速,讓云端存儲可以做到比本地存儲還快,并擁有極大規(guī)模的資源池。通過全硬件虛擬化和轉發(fā)加速,時延最低可至30us(PLX),IOPS高達300萬,存儲時延存儲帶寬可達200 Gbps,全面超越市面上的云產品。
·計算加速。算得快意味著什么?1750億參數的AI大模型GPT-3訓練成本約為1200萬美元,如果算得夠快、損耗夠小,訓練成本就能大大下降。而眾所周知,云服務將物理機虛擬池化,過程中或多或少都會產生一定的損耗,CIPU的出現就解決了算力虛擬化的損耗問題。通過與神龍計算平臺相結合,將虛擬化轉移到專用硬件中進行加速,損耗幾乎為零,讓云服務器的性能表現超越了傳統(tǒng)物理機,還提供硬件級安全的加固隔離,兼具云端彈性擴容的優(yōu)點。對于云上客戶來說,無疑是更低成本、靈活性的選擇。
在多種計算架構方案中,“飛天操作系統(tǒng)+CIPU”為中心的新一代計算體系架構,從最底層的核心硬件到最上層的云原生軟件進行革新,替代CPU成為云計算的管控和加速中心,無疑是云端算力生產和服務單位價值更高、技術變革更大、基礎底座更強韌的一次探索。
風雷:CIPU畫出的跑道通向何方?
中國工程院院士、清華大學高性能計算研究所所長鄭緯民曾說,過去這些年,我國在云計算領域主要在軟件層面有創(chuàng)新,發(fā)展了一些開源生態(tài),但還是在傳統(tǒng)IT的格局下追趕。
顯然,CIPU的出現,下筆如有風雷,撕開由西方主導的計算產業(yè)天空,露出未來的一抹天光。乍一看石破天驚,實則是一場醞釀已久的春雨。
前面提到的飛天操作系統(tǒng)、洛神網絡、盤古存儲,都是阿里云多年不斷突破的云計算底層技術,經過深入垂直整合,才最終演進出以CIPU為中心的全新架構形態(tài),解決傳統(tǒng)計算架構無法解決的問題。以虛擬化零損耗為例,阿里云相關研發(fā)團隊早在2015年就開始技術攻關,2017年神龍云服務器的推出,就已經攻克了這一技術難題。目前,阿里云已經建立了芯片、服務器、操作系統(tǒng)、數據庫等自研技術底座,在Gartner發(fā)布的年度報告里躋身IaaS整體基礎設施能力的全球最高分。同時,阿里云也是國內最早實踐綠色數據中心的廠商之一。
那么,這場終于降落在華夏大地上的春雨,會帶來怎樣的變化呢?
首先感受到雨露潤澤的必然是各行各業(yè)的數字化,CIPU+飛天體系下,云端算力的單位成本更低、性能更優(yōu)、能耗更低,產業(yè)客戶會直接受益,用上更加普惠、高效、綠色的算力。
其次,大地滋潤后會生長出更多創(chuàng)新,讓中國在數字經濟占據領先身位。算力正在許多行業(yè)中釋放潛力,比如云電腦無影,就將高算力工作從本地轉移到云端,無需高性能終端,依然可以在云端流暢地打造8K畫質體驗,對于創(chuàng)作者來說是極大的生產力解放。
更進一步,各行各業(yè)的創(chuàng)新和計算軟硬件迭代,共同組成蓬勃的新計算生態(tài)。就如阿里云智能總裁張建鋒在2022年阿里云峰會上所說的那樣,“現在是重新定義云的窗口期,如果我們定義好了,中國就可以在下一個技術時代有自己的一席之地”。
回到底層,回到源頭,去做最基礎的計算架構創(chuàng)新,阿里云用行動“Back to Basic”,踐行“B2B”策略。這也是為什么云計算的范式轉化應該發(fā)生在中國,發(fā)生在此刻。
英國科普作家馬特·里德利在《創(chuàng)新的起源:一部科學技術進步史》一書中列舉大量事實表明,正如6個世紀以前,歐洲從日益僵化的中國手中奪過創(chuàng)新接力棒一樣,中國或許即將再次奪回接力棒。
在CIPU如驚雷般地書寫中,中國云計算的新樂章已經寫下了開頭。何其有幸,我們正見證未來。