拳打AMD、Intel?腳踢英偉達?AWS把硅戰(zhàn)爭帶到了云端

開源云中文社區(qū)
隨著AWS上以及Azure和Google Cloud Platform(GCP)上可用選擇的爆炸式增長,客戶可能會越來越仔細地考慮應(yīng)用程序性能和服務(wù)提供的成本/性能比。這樣,底層芯片和服務(wù)器基礎(chǔ)設(shè)施將成為決定云原生應(yīng)用程序性能、功耗以及成本的關(guān)鍵因素。

AWS全球基礎(chǔ)設(shè)施和客戶支持高級副總裁Peter DeSantis在AWS Re:Invent年度用戶活動上發(fā)表主旨演講時表示,與CPU巨頭AMD和Intel提供的處理器相比AWS的處理器和芯片設(shè)計在云應(yīng)用程序性能方面具有優(yōu)越性,而且AWS的圖形處理器性能超過了Nvidia為機器學(xué)習(xí)(ML)提供的GPU。他指的是AWS Graviton2處理器,由AWS使用64位Arm Neoverse定制。

隨著AWS上以及Azure和Google Cloud Platform(GCP)上可用選擇的爆炸式增長,客戶可能會越來越仔細地考慮應(yīng)用程序性能和服務(wù)提供的成本/性能比。這樣,底層芯片和服務(wù)器基礎(chǔ)設(shè)施將成為決定云原生應(yīng)用程序性能、功耗以及成本的關(guān)鍵因素。

因此,AWS希望旗艦64位基于ARM的Gravion2和其他內(nèi)部設(shè)計的處理器的強大功能發(fā)揮重要作用,以幫助客戶提高其應(yīng)用程序的性能。

DeSantis說:“對AWS硅技術(shù)的深度投資真正令人興奮和帶來變革的是能夠跨定制硬件和軟件工作,以提供獨特的功能。通過在整個堆棧中工作,我們能夠比以往任何時候更快地實現(xiàn)這些改進。”

發(fā)力芯片

Graviton2有望通過多種方式進一步提高應(yīng)用程序性能。DeSantis作出了大膽的聲明,AWS Graviton2提供了優(yōu)于傳統(tǒng)設(shè)計的性能、節(jié)能優(yōu)勢和安全性。AWS還公開表示,為Amazon EC2 T4g、M6g、C6g和R6g實例以及基于本地NVMe的SSD存儲的“變體”提供動力的Graviton2“為各種工作負載”提供了比基于x86的實例高出40%的性價比

DeSantis說,在基于Graviton的Amazon EC2 A1實例中引入Graviton的目的是讓AWS“與客戶和ISV合作伙伴合作,了解他們在現(xiàn)代64位ARM處理器上運行工作負載需要什么”。

DeSantis解釋說,如今用戶需要的是將處理器設(shè)計與在云環(huán)境中運行的高度分布式微服務(wù)應(yīng)用程序相匹配的能力。今天的開發(fā)者也基本上不再用C++編寫云原生應(yīng)用程序,而是用GO和Ruat,并且“完全改變了高性能多線程應(yīng)用程序的開發(fā)”。

“對我來說,最令人興奮的趨勢之一是轉(zhuǎn)向基于服務(wù)的架構(gòu),從大型單體應(yīng)用程序向小型專門構(gòu)建的獨立應(yīng)用程序發(fā)展。這正是容器和Lambda支持的計算類型。雖然橫向擴展計算已經(jīng)發(fā)展到利用更高核心處理器,但處理器設(shè)計師從未真正拋棄舊世界。他們試圖做到這兩個方面,既滿足傳統(tǒng)應(yīng)用程序的需要,又滿足現(xiàn)代擴展應(yīng)用程序的需要。”

DeSantis在重申Graviton2的設(shè)計者“專注于確保每個核心都能為現(xiàn)代云工作負載提供最真實的性能”的同時,還暗指傳統(tǒng)的CPU性能基準(如用于衡量PC和服務(wù)器性能的基準)不再適用。“我們利用運行實際橫向擴展應(yīng)用程序的經(jīng)驗,確定需要在哪些方面添加功能以確保最佳性能。”

DeSantis還表示,Graviton2的設(shè)計旨在節(jié)省每個芯片的硅表面,同時通過減少內(nèi)核數(shù)量來降低功耗——這是衡量處理器性能的傳統(tǒng)方法。

“我們設(shè)計Graviton的目的是有盡可能多的獨立核心,而盡管獨立,Graviton兩個核心的設(shè)計是一致的。”

Snap的工程高級副總裁Jerry Hunter表示,Snap使用Graviron2有助于降低AWS DynamoDB和S3的成本和能耗。除了用AWS的DynamoDB和S3進行存儲外,他還看到了Graviton2“在不消耗大量能源的情況下為客戶降低成本并創(chuàng)造更好的性能”。

Hunter說,Snap向Graviton2的轉(zhuǎn)變“非常簡單”,API“與以前使用的非常相似”,因此“不需要花太多時間來遷移代碼以進行測試。我們節(jié)省了20%的成本,這是非常棒的,因為我們能夠切換此負載,并立即獲得成本節(jié)約和更高的性能。”

芯片上的機器學(xué)習(xí)

雖然沒有透露具體的基準測試,DeSantis還表示AWS優(yōu)于Nvidia??偟膩碚f,與用于支持ML的大規(guī)模推理基礎(chǔ)設(shè)施的GPU相比,AWS Inferentia提供了“以一半的成本實現(xiàn)了最高的吞吐量(每次推理)”。具體到Nvidia,DeSantis說Amazon Alexa最近將其推理工作負載從基于Nvidia GPU的硬件轉(zhuǎn)移到了基于Inferentia的EC2實例,成本降低了30%,延遲降低了25%。

對于ML開發(fā)人員,AWS的Neuron團隊提供了TensorFlow、PyTorch和Apache MXNet等框架來設(shè)計運行在Inferntia上的應(yīng)用程序。DeSantis說:“開發(fā)人員可以利用Inferntia的成本節(jié)約和性能,而不需要對ML代碼進行很多更改或根本不做任何更改,并保持對其他ML處理器的支持。”

在沒有透露具體細節(jié)的情況下,DeSantis說,AWS為ML設(shè)計的下一款硅芯片將包括明年推出的AWS Trainium。

“我們在機器學(xué)習(xí)芯片上的投資才剛剛開始。正如Inferentia所做的那樣,Trainium將提供最低成本和最高性能的方式來運行訓(xùn)練工作負載。”

對于ML開發(fā)團隊,AWS還通過機器學(xué)習(xí)擴展運維,并將AWS的數(shù)據(jù)庫服務(wù)(包括S3和Dynamo)與AWS SageMaker及其ML基礎(chǔ)設(shè)施集成在一起。有了正確的硅基礎(chǔ)設(shè)施和開發(fā)工具,目的是提供一個機器學(xué)習(xí)平臺可以滿足DevOps團隊的需求,因為他們可以在不改變基礎(chǔ)設(shè)施和工具集的情況下,從10或100個ML項目模型擴展到1000個。

“這是一種變革性的技術(shù)。我認為,開始機器學(xué)習(xí)并開始進行概念驗證非常重要,而AWS提供的工具使其變得更加容易,”AWS ML的副總裁Bratin Saha表示。“所以,我認為讓客戶明白機器學(xué)習(xí)是現(xiàn)在的關(guān)鍵,而不是未來,這一點非常重要。”

原文鏈接:

Amazon Web Services Takes the Silicon Wars to the Cloud–The New Stack

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論