本文來自阿里開發(fā)者,作者藺瑞軍(簫逸)。
本篇文章,以“輸出倒逼輸入”串聯(lián)了三個觸點的學習和思考內容,作為總結。
緣起
重新理解云計算,這個「重新」重點是對我自己而言的。
有這樣的感受是來源于幾個觸點:
第一個觸點是閱讀了兩篇非常有見解的文章,分別是道哥的《我對計算的理解》和吳軍的《中國算力的危與機》;
第二個觸點是最近閱讀了王堅院士的《在線》這本書;
第三個觸點是阿里云內部的AEPC考試,對阿里云產品體系有了一個更加全面完整的了解。
這三個觸點學習下來,發(fā)現(xiàn)自己對云計算的理解還是很淺薄。借助本篇文章,以「輸出倒逼輸入」串聯(lián)一下這三個觸點的學習和思考內容,作為總結。
云計算,云是一種形態(tài),其關鍵在于計算。計算離不開算力。但算力和計算是兩個東西。因此理解云計算需要先清楚兩個東西,一個是算力,一個是計算。云計算實際上也是一個關于算力的產業(yè)。
阿里云成立之初就有一個信念:計算作為一種公共服務?;谶@個信念確定了最初的愿景:讓整個數(shù)據(jù)中心等于一臺計算機,這也是阿里云一直做的事情,提供更強大的算力的基礎設施。因此,如果以算力產業(yè)的角度透視阿里云,阿里云過去一直做的事情是:不斷建設和提升算力基礎設施的規(guī)模、優(yōu)化算力管理效率、提供足夠多的算力產品和應用來解決計算便捷性問題。以這個視角看阿里云在云計算領域的發(fā)展過程,更容易構建起整個阿里云的產品體系的大局觀,這也是這篇文章想嘗試做的事情。
算力的演進
什么是算力?從狹義上看,算力是設備通過處理數(shù)據(jù),實現(xiàn)特定結果輸出的計算能力。
2018年諾貝爾經濟學獎獲得者William D.Nordhaus在《計算過程》一文中提出:“算力是設備根據(jù)內部狀態(tài)的改變,每秒可處理的信息數(shù)據(jù)量”。算力實現(xiàn)的核心是各類計算芯片,并由計算機、服務器、高性能計算集群和各類智能終端等承載,海量數(shù)據(jù)處理和各種數(shù)字化應用都離不開算力的加工和計算。算力數(shù)值越大代表綜合計算能力越強,常用的計量單位是每秒執(zhí)行的浮點數(shù)運算次數(shù)(Flops,1 EFlops=10^18 Flops)1。
算力的發(fā)展演進,有兩個角度來觀察:
第一個角度是物理演進的角度。
物理演進的宏觀尺度上符合摩爾定律,從1946年出現(xiàn)世界上第一臺電子計算機;1958年從真空管到晶體管出現(xiàn)晶體管計算機,再到1964年出現(xiàn)集成電路計算機,再到半導體技術的發(fā)展,大規(guī)模集成電路整體進入芯片時代。作為承載算力主體的底層核心芯片,其處理能力也達到了空前的高度。主要分為兩類,一類以CPU為核心提供的算力,進一步細分為X86架構和ARM架構。另外一類是針對具體場景的優(yōu)化處理,主要以GPU、ASIC(NPU/TPU)、FPGA、DPU等提供算力。
第二個角度是商業(yè)演進的角度。
從IBM大型機租用開始,到個人PC電腦普及,再到網絡發(fā)展把所有的高性能服務器放在一起,構成互聯(lián)網數(shù)據(jù)中心IDC,再到今天按需使用的云計算,隨著IOT的發(fā)展,更多的計算需求出現(xiàn),邊緣計算和端計算正在讓算力無處不在。
現(xiàn)階段,算力規(guī)模的重點包括基礎通用算力、智能算力和超算算力。
基礎通用算力主要基于CPU芯片的服務器所提供的計算能力;
智能算力主要是基于GPU、FPGA、ASIC等芯片的加速計算平臺提供人工智能訓練和推理的計算能力;
超算算力主要是基于超級計算機等高性能計算集群所提供的計算能力。
2019年7月25日,在基礎通用計算方面,飛天基礎計算平臺擴展到10萬臺計算集群,用通俗的比喻,就相當于把10萬臺計算機組成一個巨大的算力池子,當成一臺超級計算機來使用;
2022年8月30日,阿里云宣布推出智能計算解決方案“飛天智算平臺”,并啟動位于張北和烏蘭察布的兩座超級智算中心,算力規(guī)模合計15 EFLOPS(每秒1500億次浮點運算,有些宣傳稿是12 EFLOPS,待確認),成為全球最大規(guī)模智算平臺。
2022年11月3日,杭州云棲大會上,阿里云公布了自研算力體系新進展,自研CPU倚天710已經在數(shù)據(jù)中心大規(guī)模部署,成為中國首個云上大規(guī)模應用的自研CPU,實現(xiàn)算力攻堅重大突破。
計算的演進
算力演進不是目的,算力演進的目的是為了計算。道哥在《關于計算的理解》演講中提到,計算有兩個價值,一個是模擬,一個是創(chuàng)造。過去和當下所經歷技術演變和發(fā)展更多是圍繞「模擬」來展開;未來數(shù)據(jù)、算力能力的增強,結合人工智能逐漸會有更多的創(chuàng)造可能。比如元宇宙、時下流行的AIGC等;
回看計算的演進過程,計算的概念其實很早就有。對計算的需求和技術的發(fā)展可以追溯到古代。在古代,人們使用手指、尺子和算盤來解決簡單的計算問題。隨著人類的發(fā)展,發(fā)明了越來越復雜的計算工具,如按字母表順序排列的石頭(古埃及)、紙和筆(古印度、中國)、機械計算器(17世紀)等。
從17世紀到19世紀長達兩百多年的時間里,一批杰出的科學家進行了機械式計算機的研制,其中的代表人物有帕斯卡、萊布尼茨和巴貝奇。這一時期的計算機雖然構造和性能還非常簡單,但是其中體現(xiàn)的許多原理和思想已經開始接近現(xiàn)代計算機。
在20世紀,隨著電子計算機的出現(xiàn),計算能力迅速提高。電子計算機可以運行復雜的程序,比人類快得多。電子計算機的出現(xiàn)改變了人類的生活方式,并促進了科學和技術的進步。
20世紀20年代,在集合論不斷發(fā)展的基礎上,數(shù)學家戴維.希爾伯特(David Hilbert)提出了著名的23個問題,向全世界的數(shù)學家拋出了一個宏偉計劃,其大意是建立一組公理體系,使一切數(shù)學命題原則上都可由此經有限步推定真?zhèn)危@叫做公理體系的“完備性”;希爾伯特還要求公理體系保持“獨立性”(即所有公理都是互相獨立的,使公理系統(tǒng)盡可能的簡潔)和“無矛盾性”(即相容性,不能從公理系統(tǒng)導出矛盾);但不幸的是,1931年,在希爾伯特提出計劃不到3年后,年輕的邏輯學家?guī)鞝柼?middot;哥德爾(Kurt Godel)發(fā)表論文提出不完全性定理,任何自然數(shù)算術理論的公理化系統(tǒng)都是不完全的,存在不可證明,也不可證否的命題。
哥德爾不完全性定理證明了許多問題是不可判定真假的,那么到底哪些問題是可判定的,哪些問題是不可判定的?換一個角度,在計算理論中,不可判定問題可以表述為在有限的時間內無法得到解決的問題,也就是說,這些問題是不可計算的。如何判定哪些是可計算的,哪些是不可計算的?這便是可計算性理論的研究內容。
20世紀30年代,許多數(shù)學家試圖將可計算性理論形式化。1934年,哥德爾提出了一般遞歸函數(shù)的概念。同年,丘奇提出了“丘奇論點”,用遞歸函數(shù)和Lambda可定義函數(shù)來形式地描述有效可計算性。1936年,圖靈在他的“論可計算數(shù)及其在判定問題中的應用”一文中從一個全新的角度定義了可計算函數(shù)。他全面分析了人的計算過程,提出一種抽象的計算模型,即將人們使用紙筆進行數(shù)學運算的過程進行抽象,由一個虛擬的機器替代人類進行數(shù)學運算,第一次在純數(shù)學的符號邏輯和實體世界之間建立了聯(lián)系,這就是「圖靈機」設想。這也是可計算理論和現(xiàn)代計算機的奠基性工作。在圖靈證明了存在通用圖靈機后的十年里,第一臺可編程的計算機被建造出來了。圖靈機成為整個電子計算機的藍圖。
1945年6月,馮·諾伊曼與戈德斯坦等人,聯(lián)名發(fā)表了一篇長達101頁紙的報告,即計算機史上著名的“101頁報告”。這份報告奠定了現(xiàn)代計算機體系結構堅實的根基,直到今天,仍然被認為是現(xiàn)代計算機科學發(fā)展中里程碑式的文獻。他提出了馮·諾依曼架構,計算機由五個部分組成(運算器、控制器、存儲器、輸入設備、輸出設備),奠定了今天所有計算機的基本架構,其中最偉大的創(chuàng)新,是計算和存儲分離,解決計算機存儲容量太小,運算速度過慢的問題。目前絕大多數(shù)的計算機依然采用馮·諾依曼架構。
量子計算、光計算、存算一體等顛覆性計算技術的突破性發(fā)展,非馮諾依曼架構從理論走向實踐。比如存算一體架構實現(xiàn)在存儲單元進行計算。計算架構的創(chuàng)新,計算能力也必將得到顛覆性發(fā)展。
2021年12月,達摩院成功研發(fā)存算一體芯片。全球首款基于DRAM的3D鍵合堆疊存算一體芯片。它可突破馮·諾依曼架構的性能瓶頸,滿足人工智能等場景對高帶寬、高容量內存和極致算力的需求。在特定AI場景中,該芯片性能提升10倍以上,效能比提升高達300倍。
2022年6月,阿里云峰會上發(fā)布云基礎設施處理器CIPU(Cloud Infrastructure Processing Unit),將其定義為替代CPU成為云計算的管控和加速中心。在這個全新體系架構下,CIPU向下對數(shù)據(jù)中心的計算、存儲、網絡資源快速云化并進行硬件加速,向上接入飛天云操作系統(tǒng),將全球數(shù)百萬臺服務器構建為一臺超級計算機。
云計算的演進
云計算當前已經成為計算領域的一種主流計算形態(tài),并在各個領域得到了廣泛的應用。云計算的核心是通過互聯(lián)網共享計算資源。
云計算是互聯(lián)網規(guī)?;葸M的結果
互聯(lián)網的規(guī)?;l(fā)展,對海量數(shù)據(jù)進行存儲和處理需要強大的算力支撐,單個芯片或單臺服務器的算力無論在計算速度、性能、成本等方面都出現(xiàn)瓶頸,單純靠芯片的堆疊是不能滿足超大型計算需求的。
彼時的2007年,淘寶的會員,支付寶的用戶,B2B的客戶數(shù)量等等加在一起已經有幾個億之多,并不斷地增長中。用戶激增,數(shù)據(jù)越來越多,需要的對應的算力也越來越多。在基礎設施的擴展性上遭遇到了異常明顯的瓶頸。
當時基礎設施的技術選擇上購買國外成熟的設備和系統(tǒng),幾乎是阿里和其他所有中國大企業(yè)的唯一選擇。也就是大家所熟悉的IOE,I是代表IBM,對應的服務器小型機,O是代表Oracle,也就是他們的甲骨文商業(yè)數(shù)據(jù)庫,E是EMC,它是存儲設備的提供商。
這其中帶來的挑戰(zhàn),一是太貴了,小型機的價格大概是從幾十萬萬到百萬元人民幣,商業(yè)數(shù)據(jù)庫軟件的費用也要上千萬,其成本不可接受。二是靈活性很低,新的促銷活動需要快速上線一批機器,傳統(tǒng)的供貨模式無法支持業(yè)務發(fā)展。
2007年,阿里確認未來十年戰(zhàn)略,通過數(shù)據(jù)智能去支撐電商及其他各類的應用,從重點建設大數(shù)據(jù)處理能力開始,來逐步的構建了一個完整的云平臺能力。這是飛天云操作系統(tǒng)的來源,也是阿里云起步所需要解決的問題和初心。
如果我們回溯云計算發(fā)展歷程中的大事件,也會發(fā)現(xiàn)云計算背后的推手也是互聯(lián)網規(guī)模化的發(fā)展。
20世紀60年代,美國科學家約翰·麥卡錫(John McCarthy)提出“計算機遲早有一天會變成一種公用基礎設施”。
1997年10月,得克薩斯大學的拉姆納特·切拉帕(Ramnath Chellappa)博士在國際運籌學與管理科學學會年會上,提出計算已經從以大型機為基礎的結構進化到了以網絡為基礎的架構,他把這種新的計算模式稱為云計算,這是云計算這個術語在學術界第一次被使用。
2006年3月14日,亞馬遜AWS發(fā)布了Amazon Simple Storage Service(Amazon S3),開始以Web服務的形式提供IT基礎設施服務(IaaS類型),以較低的價格將空閑IT資源“租”給向企業(yè),開創(chuàng)了一種嶄新的計算資源服務模式,彼時還沒有“云計算”這個名稱,但它是業(yè)界公認最早的云計算服務,這是云計算服務最初的模樣。
2006年8月9日,谷歌CEO埃里克·施密特(Eric Schmit)在加州圣何塞召開的搜索引擎大會上第一次高調用云和云計算的概念來描述谷歌所提供的互聯(lián)網服務。埃里克特別指出與此相對應的傳統(tǒng)模式就是Oracle主導的傳統(tǒng)的客戶機/服務器處理結構模式。
同年8月25日,亞馬遜推出了EC2(彈性云計算)的測試版,EC2是亞馬遜云計算服務平臺AWS中最重要的一部分。同年9月27日,杰夫·貝佐斯(Jeff Bezos)在麻省理工學院的新技術大會上,作為第一個主題演講者,把EC2、S3(簡單存儲服務)和土耳其機器人(Mechanical Turk)描述為亞馬遜“11年來的大規(guī)模萬維網計算”方面的結晶。演講中,杰夫并沒有像埃里克那樣專門提到云計算,但一直強調把后臺基礎設施作為服務。
2007年12月,《商業(yè)周刊》刊登了一篇封面文章——《谷歌和云的智慧》(Google and the Wisdom of Clouds),講到谷歌的新戰(zhàn)略是“把驚人的計算能力放到眾人手里”,這種驚人的計算能力在文章中沿用了谷歌的叫法,稱作云。自此,云,連同今天大家熟悉的MapReduce(一種編程模型)開始逐步出現(xiàn)在主流商業(yè)雜志上。
2008年,谷歌的云服務開始提供正式服務,AWS EC2有了SLA(服務級別協(xié)議)。2009年,阿里云成立,國內云計算市場開始起步。
2010年5月10日,阿里云推出首個商業(yè)化的彈性計算產品,即ECS1.0,開始為中小企業(yè)站長提供服務。
2010年11月,亞馬遜把自己的零售網站切換到了EC2和AWS上,網飛(Net?ix)和Pinterest等互聯(lián)網服務也搬到了亞馬遜的AWS上,從此云和云計算開始大行其道。
2013年,阿里云突破5K測試,成為全球首個提供5000臺服務器的大規(guī)模計算集群。
2015年,阿里云登月計劃完成,阿里所有數(shù)據(jù)計算任務遷移至飛天平臺。
2017年,阿里云發(fā)布軟硬一體的神龍架構,并進行第二次虛擬化架構升級,虛擬化損耗降為零。同年,AWS發(fā)布了基于Nitro架構的C5實例規(guī)格,云計算開始進入全新的軟硬相結合的虛擬化架構階段。
2020年阿里云發(fā)布一云多形態(tài)戰(zhàn)略,推出智能全托管、云盒等新產品,將公有云不斷向外延伸。
2021年阿里云承載了100%的阿里巴巴業(yè)務上云。
2022年阿里云正式對外宣布飛天操作系統(tǒng)+CIPU的計算體系升級。
上述發(fā)展歷程與傳統(tǒng)互聯(lián)網、移動互聯(lián)網以及當下的產業(yè)互聯(lián)網,物聯(lián)網發(fā)展幾近重疊。云計算正在成為一種被普遍認可的計算方式與算力服務,使得用戶可以像使用水、電一樣,通過網絡使用云計算資源并按需付費。
云計算的本質是讓算力更普惠
云計算本質是讓算力更加的普惠,幫助企業(yè)跨越分布式的時代,讓企業(yè)能夠聚焦于自己的核心業(yè)務。云計算架構演進主要分為三個階段:
第一階段:分布式架構。隨著互聯(lián)網業(yè)務發(fā)展,給技術帶來了新的要求和挑戰(zhàn),部分企業(yè)單一業(yè)務算力要求就超過了萬臺機器規(guī)模,同時還要求數(shù)據(jù)強一致,這催生了以分布式架構和虛擬化為代表的云計算技術的發(fā)展,在技術社區(qū)涌現(xiàn)了一大批優(yōu)秀成果。大量云計算公司也由此誕生,并在技術社區(qū)的成果基礎上建設了云服務并對外提供了按需算力。
第二階段:資源池化架構。通過軟件定義的方式,以CPU為中心構建了計算存儲分離的架構,對資源進行統(tǒng)一的調度編排,讓企業(yè)以云原生的方式來重新設計軟件和架構。
第三階段:以云基礎設施處理器為中心的計算架構。這個新型計算架構需要通過軟硬件結合的方式,實現(xiàn)規(guī)模擴展的同時,保障計算性價比、網絡傳輸以及安全穩(wěn)定要求。阿里云提出的將飛天操作系統(tǒng)加載在CIPU(云基礎設施處理器)上,就是一個解決該類需求的全新架構與方案。類似的還有AWS的Nitro架構,都是在此路徑上不斷迭代演進。
2022年11月3日云棲大會上,癲總指出云計算正在重構整個IT軟硬件體系和終端世界,形成一個全新的計算體系,具體表現(xiàn)在3個方面:整個IT硬件體系的重構;軟件研發(fā)范式的深刻變革;云和端加速融合,算力從端轉移上云,未來萬物皆是計算機。
上述是云計算計算架構演進階段,終極目標是讓算力的獲取更加方便、便捷和普惠。讓每個小的企業(yè)或個體都能跟大公司一樣,獲得同等的算力,最大化的解決了企業(yè)成本問題,將原來的固定成本轉化成了可變成本,只有開展生產和經營活動時才產生費用。
技術融合創(chuàng)新推動著新一代云的誕生,云計算進入基礎設施云化、應用云原生化、云網端融合的新階段(參考下圖),一方面會讓云離客戶更近,另一方面讓算力更普惠。
圖引自信通院和阿里云共同發(fā)布的《新一代體系化創(chuàng)新云》白皮書
阿里云與云計算
阿里云成立之初就有一個信念:計算作為一種公共服務。基于這個信念確定了最初的愿景:讓整個數(shù)據(jù)中心等于一臺計算機。以算力產業(yè)的角度透視阿里云,阿里云過去一直做的事情是:不斷建設和提升算力基礎設施的規(guī)模、優(yōu)化算力管理效率、提供足夠多的算力產品和應用來解決計算便捷性問題。
算力的大小和規(guī)模(基礎設施規(guī)模及能力演進)
阿里云打造的飛天云操作系統(tǒng)是面向互聯(lián)網上應用的基礎軟件,向下管理和構建遍布全球部署的數(shù)據(jù)中心資源,向上提供著對外整體的公共服務和標準開放編程接口。飛天操作系統(tǒng)從2008年立項開始,不斷進行架構迭代和創(chuàng)新突破。2022年發(fā)布CIPU自研芯片,向下對數(shù)據(jù)中心的計算、存儲、網絡資源實現(xiàn)快速云化并進行硬件加速,向上接入飛天云操作系統(tǒng),將全球數(shù)百萬臺服務器構建為一臺超級計算機。
CIPU成就新的計算體系
CIPU是阿里云的自研芯片,是為飛天云操作系統(tǒng)量身定做的云基礎設施處理器。在CIPU插入到物理服務器之上時,底層的服務器資源從硬件的服務器資源變成云化的服務器資源,并進一步的被跑在上面的飛天云操作系統(tǒng)所納管。將虛擬的計算、存儲、網絡資源都池化之后,去進行統(tǒng)一的編排和調度,為客戶提供整體的彈性的計算資源。
在計算設備上,CIPU動態(tài)接入一到多臺CPU、GPU等不同的計算服務器,通過硬件加速去保持算力零的損耗,以及客戶算力之間的安全隔離能力。
在存儲設備上,CIPU動態(tài)接入基于存算分離架構的盤古塊存儲,包括本地的存儲設備,實現(xiàn)對云盤帶寬和時延的大幅加速,以及本地盤云化接近零的延遲損耗。
在網絡設備上,CIPU動態(tài)接入一到多路物理網絡,執(zhí)行TCP和RDMA協(xié)議下的網絡加速。值得一提的是,CIPU是對外提供了ERDMA,也就是彈性RDMA能力在業(yè)界首次的大規(guī)模、普惠式的提供了高性能分布式網絡加速。
飛天內核平臺(神龍、盤古、洛神)
CIPU之上,對應飛天云操作系統(tǒng)的內核平臺:神龍計算、盤古存儲、洛神網絡。
神龍計算
神龍計算的核心是管理和調度更多的算力(CPU/GPU等資源),并在管理和調度演進過程中不斷的降低損耗。這個過程中的挑戰(zhàn)在于,過去芯片商、硬件商、虛擬化軟件廠商等幾乎所有的角色一如既往地扮演好自己的角色,按照各自的進化邏輯和速度演進,他們之間的配合就成了“三不管地帶”——虛擬化損耗被視作必然。這些損耗體現(xiàn)在:CPU計算性能損失,系統(tǒng)資源爭奪和IO性能瓶頸。
神龍計算就是要解決上述這些問題。整體演進經歷過了幾個非常重要的階段,從Xen到KVM,從KVM到自主研發(fā)的神龍架構。核心原理是將本來由軟件承擔的一部分虛擬化管理工作,改為專用的硬件芯片來實現(xiàn),這樣可以極大的提升效率。這時物理機中的所有計算資源基本都可以用于用戶層應用,所以也被稱為0損耗的虛擬化方案。
CIPU脫胎于神龍軟硬一體化架構,是它的硬件部分。CIPU之后,神龍計算從原來的軟硬一體神龍架構,重新被定義為只包含軟件部分。
盤古存儲
飛天操作系統(tǒng)的目的是把IDC變成一臺計算機,盤古存儲系統(tǒng)就相當于這臺計算機的存儲,主要面臨兩方面的挑戰(zhàn),一方面是當集群規(guī)模大到一定程度時IOPS的挑戰(zhàn),因為更大的集群意味著更多文件和更多訪問,上層應用對存儲億級文件和10億級文件集群對IOPS要求存在顯著區(qū)別;另一方面是應對小概率事件的容錯性設計。
盤古采用了分布式系統(tǒng)先進的容錯架構和柔性平臺設計,具備彈性伸縮、自動負載均衡等能力,大幅提高了存儲系統(tǒng)的可靠性和安全性。盤古是飛天操作系統(tǒng)的統(tǒng)一存儲底座。盤古來支撐了很多很多業(yè)務。這也是為什么阿里云的云存儲產品類別更為豐富的原因。盤古任何點點滴滴的改進,都可以通過各層基于盤古的服務放大。盤古是業(yè)界少有的分布式統(tǒng)一存儲平臺,OSS、EBS、NAS、OTS、ODPS、DFS等產品都基于該分布式存儲系統(tǒng)構建。
盤古發(fā)展至今主要經歷了兩個階段:
盤古1.0,09年開始構建,采用的是集中式元數(shù)據(jù)管理,主要面向HDD磁盤,支持多種文件類型;
盤古2.0,16年開始設計,分布式元數(shù)據(jù)服務、全用戶態(tài)數(shù)據(jù)存儲引擎、高性能存儲網絡、自研糾纏碼技術和微秒級IO延遲。
洛神網絡
洛神伴隨飛天系統(tǒng)誕生。當用戶在云上使用計算資源時,網絡地址獨立規(guī)劃,不同用戶地址可以相同,且虛擬機可以在不同機房之間遷移,地址保持不變,同時云計算是一個基礎設施,支持海量用戶同時使用,這些關鍵需求要求提供一個超大規(guī)模的虛擬化大二層的網絡。洛神網絡平臺是阿里云飛天系統(tǒng)的內核組件之一,提供了云計算中網絡虛擬化的能力。
洛神云網絡發(fā)展到現(xiàn)在經歷三個重要的階段:
●2010年的洛神1.0,即云數(shù)據(jù)中心網絡;主要場景是數(shù)據(jù)中心和多租戶;
●2016到2020年的洛神2.0,是云廣域網絡;主要場景是全球互聯(lián),也是目前正在大規(guī)模運行的場景;
●再到2020年開始的洛神3.0,是應用-云-邊-端一體的智能網絡;主要場景就是正在發(fā)生的萬物互聯(lián)網;
以上實屬是走馬觀花的介紹了飛天內核平臺。在我看來,內核平臺的能力演進,以及如今的CIPU云基礎設施處理器,決定了整個阿里云的基礎設施規(guī)模。這也是阿里云最最核心的部分,是算力的基石。
算力的應用(上層服務及計算處理能力)
算力的應用是圍繞計算需求或計算場景展開的,如下圖是當前阿里云基于計算場景上的劃分,對應了阿里云的6大產品板塊和20大產品線。
基于本文的行文邏輯,從計算的角度我更愿意按計算需求分為:彈性計算、大數(shù)據(jù)計算、高性能計算、智能計算和復雜系統(tǒng)計算。上圖中的產品分類可能需要做一些映射。
彈性計算
彈性計算是飛天內核平臺上的首要計算需求。彈性計算可快速擴展或縮減計算機處理、內存和存儲資源以滿足不斷變化的需求,而無需擔憂用量高峰的容量計劃和工程設計。比如雙11計算資源,存儲資源和帶寬資源,活動后大規(guī)模釋放,成本轉化為營收;彈性計算既可以擴容也可以縮容,按時間和空間切片,是云計算的大底座。彈性計算中最復雜部分是調度,如何把把計算任務調度到不同的計算資源上。畢大師17年曾寫過一篇文章《調度到底是做什么的》,其中提到調度就是通過各種技術手段把機器資源充分使用上。
彈性計算是其他計算的基礎。從應用的角度,彈性是面向用戶的。一方面,彈性代表靈活的售賣形態(tài)和供給能力,另一方面代表的強大的自服務能力:大規(guī)模的部署、運維、遷移能力。因此,可以以這兩個維度來衡量阿里云彈性計算的能力。
彈性計算需求下,對應阿里云的產品主要有:云服務器ECS、彈性裸金屬服務器、云桌面等。
大數(shù)據(jù)計算
王堅院士的《在線》一書中提到,大數(shù)據(jù)的本質不是數(shù)據(jù)的大,而是在線,而且是輸入和輸出的雙向在線。
大數(shù)據(jù)計算下的典型場景:實時離線一體化場景、湖倉一體場景,以及大數(shù)據(jù)AI一體化場景。
阿里云打造了離線數(shù)倉MaxCompute和實時數(shù)倉Hologres兩個產品。這兩個產品之間,通過無縫互聯(lián)互通配合使用,從而形成離線實時一體化的業(yè)務支撐。再結合Flink的實時計算能力,實現(xiàn)流批一體化能力。同時結合數(shù)據(jù)湖產品EMR,依托于阿里云的存儲服務OSS,可以讓用戶非常容易的把數(shù)據(jù)搬到云上,然后進行數(shù)據(jù)湖分析,進一步數(shù)據(jù)湖和數(shù)據(jù)倉庫打通,實現(xiàn)湖倉一體化。通過與PAI平臺深度對接,能夠支持BI和AI融合,利用AI獲取更多的數(shù)據(jù)洞察,實現(xiàn)大數(shù)據(jù)AI一體化。
高性能計算
高性能計算需求下,阿里云云渲染GCS(Graphic Computing Service),是面向云游戲、元宇宙營銷、科研渲染、人工智能等客戶場景的高性價比圖形計算服務。GCS支持應用自動部署與資源靈活調度,提供大規(guī)模即時云渲染能力,致力于成為元宇宙的基礎設施
智能計算
深度學習自2011年興起至今,已經是目前最熱門、最主流的AI算法,訓練深度神經網絡模型對算力的需求呈指數(shù)級增長。AI非營利組織OpenAI曾于2018年發(fā)布報告,指出自2012年以來,AI訓練任務所運用的算力每3.43個月就會翻一番。
最近火爆的ChatGPT,其技術底座正是基于微調后的GPT3.5大模型。據(jù)報道,GPT3.5的訓練使用了微軟專門建設的AI計算系統(tǒng),由1萬個V100 GPU組成的高性能網絡集群,總算力消耗約3640 PF-days(即假如每秒計算一千萬億次,需要計算3640天)。
智能計算需求下,對應阿里云的主要產品有:機器學習PAI、智能對話機器人、智能語言交互、智能計算、智能推薦等產品。
復雜系統(tǒng)的計算
復雜系統(tǒng)的計算主要體現(xiàn)在計算的分布上。典型的云、邊、端的計算場景,是上述多種計算場景的融合。
邊緣計算需求,對應阿里云的邊緣云、物聯(lián)網與智能終端等。
上述是典型的計算需求,其他的個人認為都可以歸結為通用計算需求,在此不一一列舉。
算力的便捷性(業(yè)務場景及規(guī)模)
云計算和電一樣本身是沒用的,只有造出了電冰箱、電視機,電才有價值。同樣秉持著計算是一種公共服務的信念,只有算力被更廣泛的使用才能稱之為公共服務。
王堅院士在《在線》一書中有這樣的表述:記得20世紀80年代中期時我去深圳,有兩個場景印象很深,至今難忘。第一個就是到處都是漁骨天線,這樣才能收到香港的電視信號。第二個是在深圳的老商業(yè)街,每家商店門口都有一臺柴油發(fā)電機,所以整條商業(yè)街充斥著柴油發(fā)電機發(fā)電的噪聲。為什么?原因很簡單,那個時候我們整個電力基礎設施都是按照計劃建造的,加上額外的電視機和冰箱就不行了。
云計算作為基礎設施的發(fā)展,就如同當年電力作為基礎設施的發(fā)展一樣還有很長的路走,這關乎信任、成本和自服務能力。
信任
云計算是關于信任的生意。隨著云計算和大數(shù)據(jù)的普及,最大的難點其實已經超越了技術本身,而是人性的密切關聯(lián)。阿里云的發(fā)展過程中曾經遇見過各種各樣的問題,最后這些問題的解決除了問題本身的修復,更重要的是贏得客戶的信任。
客戶使用云計算,把業(yè)務放在云上,就如同我們把錢放在銀行一樣。提供安全、穩(wěn)定、可靠的服務保障是基礎。還有更重要的一點是定義好邊界,讓更多的客戶明白云計算平臺提供的是公共服務,不會抄襲它或者替代它。
此外,需要對客戶價值的堅守和理解,特別贊同《在線》中的一句話:一直以來,是這些中小企業(yè)幫助我們活下去,我們要學會理解別人對我們的幫助,而不是整天沉醉于我們去幫助別人的傲慢。如果我們以后不能繼續(xù)接受這樣的幫助,以為自己很了不起,那就無法繼續(xù)發(fā)展。這是談到客戶價值時大家不能真正理解的根本原因。
成本
我們一直把云計算當做互聯(lián)網時代的水電煤,但核心是水電煤的成本足夠低。現(xiàn)在的云計算成本,還沒有變的足夠低。
最近在做預算,當看到云間和HCRM導出的賬單之后,第一反應是驚訝,怎么那么貴。相信不只一個人有類似的想法。把一家傳統(tǒng)公司變成一家互聯(lián)網公司,相比原來公司的IT成本,在云計算是可以大大節(jié)省IT成本。但如果單純變成一個成本問題那就看不到未來,更大的未來是關于創(chuàng)造性的未來。
單位計算成本變得足夠低,低到不在考慮范圍,才有創(chuàng)造新東西的念頭。
當然成本和規(guī)?;腔榇龠M的,但這也許不是一個雞生蛋,蛋生雞的問題,更像是一個人走路,左腳邁一步右腳邁一步的問題。寫到這里,我突然想,也許云棲大會可以增加一個場景,類似于老羅跨年演講一樣,用更多的想不到來讓更多的企業(yè)和用戶看到,利用云計算之后的價值變化,這種講述不是那些標桿客戶來講,而是我們要去講更多的故事,讓更多的人看見計算的未來,讓更多的人了解和認識到,每個企業(yè)都可能基于云計算做出非常獨特的創(chuàng)新。
自服務
云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。
按需使用、按量付費是云計算的基本交付方式。這其中的關鍵是用戶的自服務能力。文檔、控制臺、OpenAPI、StatusPage這些基礎能力都是自服務的保障,除此之外上層應用的豐富性、各種工具等也都非常關鍵。類比電力基礎設施,自服務就是要讓用戶隨時找到220v的插座。
總結
以上,在整篇文章中,我沒有提及常規(guī)意義上的Iaas、PaaS、SaaS的層次劃分,也沒有提及公共云、專有云、混合云等相關的部署形態(tài)。單純從算力基礎設施規(guī)模、算力應用和算力便捷性的角度,給自己套了一個非常大的框,嘗試在這個框之下填充對于云計算的理解,對于阿里云產品和能力的理解。
圖片參考文檔