在线观看欧美国产,乱子伦av中文字幕

公有云巨頭爭奪HPC霸權(quán)

2019-11-22 10:31

中國存儲網(wǎng)

Microsoft Azure能夠?qū)嶋H的Cray XC系列超級計算機和CS Storm集群放入公共云已有兩年多了，目前尚不清楚有多少公司委托Cray（現(xiàn)在是Hewlett Packard Enterprise的一部分）來這樣做。想要在云上運行HPC和AI工作負載（尤其是GPU加速的工作負載）的客戶更有可能將現(xiàn)有實例群集在一起以創(chuàng)建虛擬超級計算機。

但是，微軟非?？释贏zure上建立HPC業(yè)務(wù)，因此通過在Azure上放置HPC實例來建立差異，從而在外觀上和感覺上都像客戶可以在自己的數(shù)據(jù)中心中部署的群集，從而消除了差異。

新的Azure實例已在丹佛的SC19超級計算機會議上宣布，本周將在技術(shù)預覽中進行演示，它實際上是Microsoft放置在選定區(qū)域中的100節(jié)點群集的單個節(jié)點。（目前尚不清楚，但我們已經(jīng)提出了要求。）那個名為NDv2的HPC實例顯然適合于運行機器學習訓練工作負載以及GPU加速工作負載。NDv2基于Tesla“ Volta” V100 GPU加速器的單個HGX托盤，它們?nèi)坷壴谝黄鹨栽贜VLink上共享數(shù)據(jù)。（可以認為這是Nvidia DGX-2系統(tǒng)中GPU復雜度的一半，其中抽出了NVSwitch并在這些GPU之間引導NVLink，以便它們可以彼此尋址32 GB HBM2內(nèi)存塊。）此GPU計算中心與基于一對20核“ Skylake” Xeon SP-6168 Platinum處理器的主機CPU系統(tǒng)鏈接，該處理器運行在2.7 GHz頻率下，并安裝在Microsoft自己開發(fā)的“ Project Olympus”系統(tǒng)中。服務(wù)器節(jié)點具有672 GB的主內(nèi)存，這表明某個地方有一個虛擬機管理程序會消耗一些內(nèi)存。我們猜測是96 GB，并且該計算機在其24個內(nèi)存插槽中裝有64 GB的存儲棒。

每個NDv2節(jié)點都有一個100 Gb /秒的ConnectX-5網(wǎng)絡(luò)接口卡，可以連接到100 Gb /秒的EDR InfiniBand互連，這顯然是從Mellanox Technology那里獲得的，Nvidia正在收購該公司，Nvidia已經(jīng)出售了InfiniBand和多年來，以太網(wǎng)已切換到Microsoft的Azure公共云中。尚不清楚Microsoft正在使用哪種拓撲將NDv2實例彼此鏈接，但是我們會猜測，它是HPC和AI工作負載中通常使用的胖樹拓撲，而不是超擴展程序和云構(gòu)建者通常使用的Clos拓撲。。Nvidia副總裁兼加速計算總經(jīng)理Ian Buck告訴The Next PlatformNDv2中的機器將以8個服務(wù)器的塊的形式出售，總共64個GPU，這意味著隨著客戶擴展NDv2集群，他們正在購買胖樹的相鄰分支。知道這一點，您可能會認為NDv2的高端Pod是96個節(jié)點，帶有768個GPU，但是我們被告知實際上是100個節(jié)點，總共有800個GPU。去搞清楚。我們的錢說實際上是前者，并且在通訊樹中有人收集了數(shù)據(jù)。

這些系統(tǒng)顯然是在運行某些Linux變體的情況下設(shè)置的（看起來是CentOS或Ubuntu Server是默認版本，但Red Hat Enterprise Linux和SUSE Linux Enterprise Server一樣是一個選項），并且可以通過以下方式獲得完整的Nvidia軟件堆棧： Nvidia NGC云或Azure市場。微軟表示已經(jīng)安裝了Mellanox OFED網(wǎng)絡(luò)驅(qū)動程序（就像有任何其他選擇一樣），并且支持所有MPI類型和版本。顯然，某處有一個虛擬機管理程序，大概是Hyper-V，Microsoft用來構(gòu)建Azure云。Hyper-V運行時，沒有任何性能下降的跡象（如果有的話）。老實說，我們很驚訝這不是一個裸機。

微軟尚未正式透露價格，但我們在大街上聽說它將達到每臺NDv2實例每小時26.44美元。這一定是要設(shè)置某種記錄，但是要看一下所承受的所有GPU性能和內(nèi)存帶寬。而且，即使客戶沒有充分利用InfiniBand網(wǎng)絡(luò)的成本，也必須為此付費。

有趣的是，我們可以花掉這筆錢。如果沒有任何數(shù)據(jù)存儲服務(wù)，將一個96節(jié)點的群集運行滿三年將花費6,675萬美元，并且該機器將具有5.76 petaflops的總峰值雙精度性能。DGX-1V具有八個Tesla V100和兩個Xeon處理器，大致類似于Microsoft為NDv2實例組裝的節(jié)點，當前價格為119,000美元（低于兩年前發(fā)布時的169,000美元）。因此，其中96臺將花費1140萬美元，其中包括相當數(shù)量的本地閃存和四倍于現(xiàn)成的網(wǎng)絡(luò)帶寬。該數(shù)字不包括電源，冷卻，房地產(chǎn)，系統(tǒng)管理或InfiniBand的交換和布線成本，但是如果您將其倒退工作并分四年攤銷，那么僅硬件就具有相同的5.76 petaflops的性能，對于DGX-1節(jié)點而言，每小時的費用為4.53美元，大致相似。每個人都應自行承擔構(gòu)建一個96節(jié)點群集的成本，并了解如何比較它們的負擔?；蛘撸喈斢贠DM和OEM的成本，甚至比Nvidia還要便宜。微軟只是為云上的HPC設(shè)置了上限。

這里要考慮的另一件事是利用率。出于爭論的考慮，假設(shè)一個內(nèi)部DGX-1群集每小時僅需花費10美元，僅用于計算和聯(lián)網(wǎng)，而無需來自Pure Storage或DataDirect Networks的本地閃存存儲陣列，也無需使用Excelero，Vast Data或Lightbits自產(chǎn)實驗室軟件定義的存儲。如果您擁有自己的混合CPU-GPU群集，并且僅在50％的時間內(nèi)使用它，那么您實際上每小時要支付20美元才能擁有該群集。因此，云與本地之間的差距很快就消除了。但是，您也可以使用ODM或OEM機器來降低成本-浪潮，Supermicro，戴爾和惠普企業(yè)將使您看起來像NDv2節(jié)點，而價格卻要比Nvidia便宜得多。大概少40％。這樣可以將總成本降低一些，但可能不會達到您的期望。如果您提高利用率，那么每小時的本地成本也會下降。這里清楚的是利用率是決定因素，而利用率模式可能會驅(qū)動您選擇在內(nèi)部部署什么容量以及在云上部署什么容量。

或者，只需管理所有這些，然后將其全部移至云中就可以了。有幾名HPC和AI從業(yè)者會這樣做，因為他們永遠不會大規(guī)模運作。

除了NDv2實例外，微軟還將預覽其基于64核“羅馬” Epyc 7742處理器的HBv2虛擬機，其中60個內(nèi)核暴露在Hyper-V虛擬機管理程序之上?；A(chǔ)節(jié)點有兩個這樣的處理器；核心的基本速度為2.25 GHz，最高可提升至3.4 GHz。微軟表示，兩路HBv2節(jié)點可以雙精度提供4 teraflops的總峰值浮點性能（顯然是單精度的兩倍），此外，它已經(jīng)建立的網(wǎng)絡(luò)可以使用MPI跨越80,000個核心Azure區(qū)域內(nèi)峰值容量的5.36 petaflops。順便說一下，這些節(jié)點使用Mellanox的200 Gb / sec HDR InfiniBand互連，這是在公共云上首次使用HDR InfiniBand。HBv2實例具有480 GB的可供應用程序使用的主內(nèi)存，并在兩個插槽之間提供350 GB /秒的內(nèi)存帶寬。每小時收費3.96美元。按照Microsoft在HBv2實例上為其HDR網(wǎng)絡(luò)提供的全部MPI可擴展性限制（我們認為是672個節(jié)點），每小時僅需花費2,661美元，即可使用按需實例租用5.36 petaflops云；預留實例尚不可用，這將大大降低價格。

微軟希望在Azure 上擁有數(shù)據(jù)啟示的四個主要功能，就像英特爾想要擁有一樣，而AMD正在通過合作伙伴關(guān)系和自己的芯片來做。（這是CPU，GPU，F(xiàn)PGA和NNP。）為此，微軟正在預覽其NDv3實例，該實例將具有與一對具有768 GB內(nèi)存和八個 Skylake Xeon SP-8168 Platinum處理器的基本Olympus服務(wù)器節(jié)點。Graphcore加速器，每個處理器都帶有一對IPU芯片，并提供1,216個IPU磁貼，7,296個線程和300 MB的處理器內(nèi)存以及驚人的45 TB / sec的內(nèi)存帶寬。Graphcore處理器上的16個IPU核心庫組通過專有的IPU-Exchange交叉開關(guān)連接，其總帶寬為8 TB / sec，并且在NDv3實例中，使用專有的IPU鏈接將多達八個Graphcore芯片粘合在一起互連。（這大致類似于帶有GPU的NVLink。Graphcore芯片通過PCI-Express 4.0 x16插槽連接到CPU結(jié)構(gòu)中。這些實例配備了Graphcore的Poplar軟件開發(fā)套件。

此外，微軟承諾將在Azure上提供NP系列實例，該實例將公開Xilinx的一到四個Alveo U250 FPGA加速器。該服務(wù)器將由與上述其他實例相同的基本服務(wù)器實例托管，并將預裝Xilinx的SDAccel 2019.1運行時環(huán)境。

微軟尚未發(fā)布Graphcore NDv3系列和Xilinx U250 NP系列實例的價格。

在已經(jīng)出售其F1 FPGA實例并且尚未透露任何NNP實例計劃的AWS上，SC19的目的是談?wù)撈湫碌腃5a和C5ad實例，這些實例將以裸機形式與192個虛擬實例一起提供。 CPU（vCPU，是跨激活內(nèi)核的線程）和384 GB內(nèi)存。C5a使用網(wǎng)絡(luò)存儲，而C5ad具有7.6 TB的本地NVM-Express閃存存儲。對于虛擬化實例，CPU計算的比例將分成八個不同的大小，并且Nitro SmartNIC將處理絕大多數(shù)KVM虛擬機管理程序功能以及網(wǎng)絡(luò)，存儲和加速器虛擬化，從而釋放那些Skylake核心來做真正的主持工作。在裸機模式下，C5a和C5ad Rome Epyc實例將有一個100 Gb /秒的以太網(wǎng)接口連接到網(wǎng)絡(luò)，彈性結(jié)構(gòu)適配器將根據(jù)CPU計算上下縮放比例。沒有透露這些AWS上的Rome CPU實例的價格。

THEEND

免責聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

電子檔案檔案數(shù)據(jù)離線光盤刻錄歸檔長期保存方案

11月14日
走進智能工廠，見證卓越智造的力量

11月13日
美妝界的數(shù)字化奇跡：漠小曼的電商轉(zhuǎn)型與國潮崛起

11月12日
2024 數(shù)智化創(chuàng)新應用技術(shù)大會 | 一號邀請

11月11日
SRM趨勢洞察：供應商關(guān)系管理將走向何方？

11月11日

“一網(wǎng)通辦”“一窗辦理” 太白縣多措并舉優(yōu)化提升營商環(huán)境

公有云巨頭爭奪HPC霸權(quán)

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

公有云巨頭爭奪HPC霸權(quán)

最新評論（評論僅代表用戶觀點）

云計算如何推動互聯(lián)網(wǎng)行業(yè)的增長

云服務(wù)大變局：出海成新角斗場

2022年全球IT基礎(chǔ)設(shè)施行業(yè)發(fā)展現(xiàn)狀及市場規(guī)模分析云計算推動數(shù)據(jù)中心進一步發(fā)展

云控制：駕馭多云時代的有效策略

本月熱門

AI 原生時代，字節(jié)想要復刻第三次增長奇跡

2024 年預防網(wǎng)絡(luò)攻擊的 12 項網(wǎng)絡(luò)安全最佳實踐措施

從5G到6G：開啟無線通信的未來

2024年上半年中國云終端市場跟蹤報告：出貨量達到166.3萬臺，同比增長22.4%

DevSecOps建設(shè)標桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

ESIS 2024第三屆中國電子半導體數(shù)智峰會正式啟動，邀您共創(chuàng)電子半導體行業(yè)美好未來!

精選文章

拉斯維加斯和洛杉磯：5G改變智慧城市

助力塑企數(shù)字化發(fā)展快塑網(wǎng)與普洛斯產(chǎn)融科技深化合作!

用力軟低代碼開發(fā)平臺高效打造倉儲管理數(shù)字生態(tài)

數(shù)字中國建設(shè)峰會數(shù)字政法分論壇丨滕達談“AI+政法：機遇與挑戰(zhàn)”

關(guān)于召開“2022第五屆中國信息技術(shù)應用創(chuàng)新大會”的通知

“全棧創(chuàng)新從可用到好用”，“2023第六屆中國信息技術(shù)應用創(chuàng)新大會”盛大開幕

熱點資訊

電子檔案檔案數(shù)據(jù)離線光盤刻錄歸檔長期保存方案

走進智能工廠，見證卓越智造的力量

美妝界的數(shù)字化奇跡：漠小曼的電商轉(zhuǎn)型與國潮崛起

2024 數(shù)智化創(chuàng)新應用技術(shù)大會 | 一號邀請

SRM趨勢洞察：供應商關(guān)系管理將走向何方？

“一網(wǎng)通辦”“一窗辦理” 太白縣多措并舉優(yōu)化提升營商環(huán)境

去中心化存儲的優(yōu)勢和市場潛力

公有云巨頭爭奪HPC霸權(quán)

最新評論（評論僅代表用戶觀點）

欄目推薦

云計算如何推動互聯(lián)網(wǎng)行業(yè)的增長

云服務(wù)大變局：出海成新角斗場

2022年全球IT基礎(chǔ)設(shè)施行業(yè)發(fā)展現(xiàn)狀及市場規(guī)模分析 云計算推動數(shù)據(jù)中心進一步發(fā)展

云控制：駕馭多云時代的有效策略

本月熱門

精選文章

熱點資訊

“一網(wǎng)通辦”“一窗辦理” 太白縣多措并舉優(yōu)化提升營商環(huán)境

去中心化存儲的優(yōu)勢和市場潛力

2022年全球IT基礎(chǔ)設(shè)施行業(yè)發(fā)展現(xiàn)狀及市場規(guī)模分析云計算推動數(shù)據(jù)中心進一步發(fā)展