五個(gè)關(guān)鍵考慮因素
在高性能工作負(fù)載中使用云計(jì)算的情況正在上升。現(xiàn)在大多數(shù)云提供商提供的最先進(jìn)的CPUs、GPUs、高性能存儲(chǔ)和網(wǎng)絡(luò)的HPC節(jié)點(diǎn)。盡管如此,決定是否使用云計(jì)算也突然變得棘手。在這篇短文,我們討論五個(gè)關(guān)鍵考慮因素,來(lái)幫助你決定云計(jì)算是否適合你的業(yè)務(wù)。
1計(jì)算真實(shí)成本
云計(jì)算比管理本地服務(wù)器便宜是公共認(rèn)知。雖然經(jīng)常是真的,這也不是一直在任何情況下都正確,花些時(shí)間比較成本是值得的。
在云計(jì)算中運(yùn)行的好處是令人信服的。您可以隨時(shí)添加或刪除最先進(jìn)的基礎(chǔ)設(shè)施,避免頭痛的軟件安裝和硬件故障的排除,降低供應(yīng)商管理成本,避免為閑置資源付費(fèi),而且不用考慮不斷貶值的資本資產(chǎn),您就能享受靈活的基于消費(fèi)的定價(jià)云計(jì)算。您還可以從各種各樣的駐留云服務(wù)(如語(yǔ)音到文本轉(zhuǎn)換器或圖像識(shí)別方案)中獲益,這些服務(wù)在本地部署成本高的離譜。
云提供商通常根據(jù)實(shí)例類(lèi)型、虛擬CPUs(vCPUs)的數(shù)量和可用的內(nèi)存和存儲(chǔ)來(lái)銷(xiāo)售服務(wù)器實(shí)例。預(yù)約一個(gè)Amazon Web Services(AWS)高性能的c5d.9xlarge實(shí)例目前的成本為每小時(shí)0.558美元。在這個(gè)價(jià)格點(diǎn)上,一個(gè)20個(gè)節(jié)點(diǎn)集群(由720個(gè)vcpu、1.44 TB RAM和10 TB的SSD組成)將花費(fèi)您每年10萬(wàn)美元。即使在考慮了電力、冷卻和設(shè)施成本之后,云中的長(zhǎng)期資源使用通常比本地部署更昂貴。
然而,在云爆發(fā)的場(chǎng)景中(下面討論),或者在需要幾個(gè)星期或幾個(gè)月的專(zhuān)業(yè)資源的情況下,經(jīng)濟(jì)性的決定更偏向于云計(jì)算。
當(dāng)在云中規(guī)劃容量時(shí),要確保你能做對(duì)等比較。云vCPU通常對(duì)應(yīng)于超線程核心上的單個(gè)線程,因此,在所有條件相同的情況下,您可能需要比本地核更多的云vCPU來(lái)獲得同等的吞吐量。另外,要謹(jǐn)慎地假設(shè)云計(jì)算將降低人員成本。雖然基于云的工具可以提高效率和避免一些成本,但是除非您運(yùn)行的是純軟件服務(wù)(SaaS)環(huán)境,否則您仍然需要熟練的技術(shù)人員來(lái)管理基于云的系統(tǒng)和應(yīng)用程序。
盡管有這些謹(jǐn)慎,但在大多數(shù)情況下,優(yōu)點(diǎn)勝過(guò)缺點(diǎn)。使用得當(dāng),云計(jì)算可以幫助大多數(shù)組織簡(jiǎn)化他們的環(huán)境并降低成本。
2數(shù)據(jù)中的魔鬼
除了成本之外,當(dāng)考慮遷移到云時(shí),數(shù)據(jù)的數(shù)量和性質(zhì)是另一個(gè)考慮因素。
大多數(shù)云提供商都提供了多種存儲(chǔ)選項(xiàng),包括塊存儲(chǔ)、對(duì)象存儲(chǔ)、數(shù)據(jù)庫(kù)、在某些情況下得共享文件系統(tǒng)的方案。大型存儲(chǔ)環(huán)境可能難以管理和備份,因此云存儲(chǔ)可能具有吸引力,并有助于避免顯著的復(fù)雜性。有各種各樣的解決方案可以有效地同步本地和駐留云集群之間的數(shù)據(jù)。
區(qū)塊存儲(chǔ)的月成本從每GB每月約0.05美元到0.13美元不等,這取決于你選擇的是磁盤(pán)還是更昂貴的固態(tài)存儲(chǔ)器。按照這個(gè)價(jià)格,在云中存儲(chǔ)50 TB的數(shù)據(jù)將花費(fèi)在每月2500美元到6500美元之間。對(duì)象存儲(chǔ)更便宜(在相同數(shù)量的數(shù)據(jù)的每月1000美元以?xún)?nèi)),但是如果您打算使用對(duì)象存儲(chǔ),您可能需要修改您的應(yīng)用程序或工作流。
不要低估將大型數(shù)據(jù)集遷移到云上的挑戰(zhàn)。盡管云提供商通常不收取導(dǎo)入數(shù)據(jù)的網(wǎng)絡(luò)費(fèi)用,但移動(dòng)大型數(shù)據(jù)集并非微不足道。有了專(zhuān)用的1 Gbps連接和一個(gè)WAN優(yōu)化方案,達(dá)到700 Mbps是最好的情況,這樣傳輸1 TB數(shù)據(jù)的時(shí)間也超過(guò)3個(gè)小時(shí)。大多數(shù)云服務(wù)提供商也提供物理數(shù)據(jù)傳輸解決方案,對(duì)于像視頻庫(kù)、圖像存儲(chǔ)庫(kù)或基因組學(xué)數(shù)據(jù)這樣的大型數(shù)據(jù)集的初始傳輸非常有用,但這也是有代價(jià)的。
根據(jù)經(jīng)驗(yàn),將處理程序靠近您計(jì)劃的存儲(chǔ)大型數(shù)據(jù)集的地方是個(gè)好主意。雖然云數(shù)據(jù)管理解決方案可以解決大多數(shù)應(yīng)用程序,但數(shù)據(jù)需求可能要求至少一些應(yīng)用程序保持在本地。
3突發(fā)
HPC中的一個(gè)常見(jiàn)用例是“云突發(fā)”。根據(jù)您的應(yīng)用程序,您可能需要大量的計(jì)算能力,但只是周期性的或短時(shí)間的。與其讓資產(chǎn)閑置,不如在本地維護(hù)一個(gè)更小的集群,并在“突發(fā)”時(shí)需要云容量是更劃算的。
如上所述,云突發(fā)的可行性將取決于您的應(yīng)用程序和數(shù)據(jù)。對(duì)于一些工作負(fù)載,比如在各種情況下為保險(xiǎn)產(chǎn)品的盈利能力建模,或者運(yùn)行一個(gè)大型的計(jì)算流體動(dòng)力學(xué)(CFD)模擬(中間數(shù)據(jù)可能很大,但是模型本身相對(duì)較小),云突發(fā)可以是一個(gè)很好的解決方案,可以獲得顯著節(jié)省成本,并提升生產(chǎn)力的好處。
如果你在運(yùn)行商業(yè)軟件,軟件許可是另一個(gè)考慮因素。雖然ISV的許可對(duì)云更加友好,但是檢查許可是否可以與您選擇的云提供商一起使用,并且供應(yīng)商支持適合于云突發(fā)的場(chǎng)景的基于使用定價(jià),這才是一個(gè)好主意。
有效云突發(fā)的關(guān)鍵是自動(dòng)化。部署和銷(xiāo)毀云應(yīng)用程序環(huán)境的過(guò)程需要對(duì)最終用戶(hù)是可靠和透明的。人們的成本往往主導(dǎo)著基礎(chǔ)設(shè)施成本,如果要在云計(jì)算中建立一個(gè)工作環(huán)境需要數(shù)小時(shí)或數(shù)天的手工工作,那么任何財(cái)務(wù)上的好處都會(huì)很快消失。理想情況下,云突發(fā)應(yīng)該與您的工作負(fù)載管理器集成,這樣您就可以控制哪些應(yīng)用程序更適合進(jìn)行突發(fā),并使其過(guò)程和應(yīng)用用戶(hù)無(wú)縫地對(duì)接。
4關(guān)注您工作負(fù)荷的多樣性
根據(jù)您所處的業(yè)務(wù),您可能會(huì)運(yùn)行數(shù)十個(gè)應(yīng)用程序。例如,CAE環(huán)境可以運(yùn)行各種商業(yè)和開(kāi)源模擬器,用于有限元素分析、動(dòng)態(tài)模擬和CFD。有了本地部署的集群,所有這些應(yīng)用程序通常都共享相同的基礎(chǔ)設(shè)施,盡管有些主機(jī)類(lèi)型可能更適合某些工作負(fù)載。
對(duì)于特定供應(yīng)商的工具,托管應(yīng)用程序服務(wù)(軟件即服務(wù))聽(tīng)起來(lái)很有吸引力,但用戶(hù)需要小心。在追求簡(jiǎn)單性的過(guò)程中,通過(guò)為垂直式的重復(fù)基礎(chǔ)設(shè)施付費(fèi),很容易放大成本。理想情況下,云環(huán)境應(yīng)該支持您的所有工作負(fù)載。一些應(yīng)用程序在本地運(yùn)行,而另一些則在云中運(yùn)行的混合方法是很有效的,但是重要的是要對(duì)所有的應(yīng)用程序進(jìn)行評(píng)估,并避免在工作流變得更加復(fù)雜、不可靠或由于需要的本地和云之間來(lái)回傳輸數(shù)據(jù)而減慢的場(chǎng)景出現(xiàn)。
虛擬化和容器技術(shù)正在幫助解決這一挑戰(zhàn),隨著越來(lái)越多的應(yīng)用程序可以部署在容器中,跨云的可移植性和管理應(yīng)用程序的多樣性正變得越來(lái)越不是一個(gè)重要的問(wèn)題。
5安全與監(jiān)管問(wèn)題
在一個(gè)對(duì)一系列網(wǎng)絡(luò)威脅越來(lái)越關(guān)注的時(shí)代,對(duì)于大多數(shù)組織來(lái)說(shuō),安全是最重要的。雖然安全性是一個(gè)真正的問(wèn)題,但這是云計(jì)算可能受到嚴(yán)重影響的一個(gè)領(lǐng)域。因?yàn)閻阂庑袨檎甙l(fā)送的、穿越internet的數(shù)據(jù)包不區(qū)分本地?cái)?shù)據(jù)中心和公有云——他們只看到路由器和防火墻以及它們是如何配置的。
這就是在IT界常說(shuō)的:“安全不是你買(mǎi)的東西,而是你練習(xí)的東西。”這是一個(gè)很好的賭注,大多數(shù)主要的云服務(wù)提供商在保護(hù)網(wǎng)絡(luò)和系統(tǒng)方面比他們的公司It兄弟更成熟。”也就是說(shuō),云用戶(hù)仍然有責(zé)任充分利用可用的工具來(lái)幫助他們保護(hù)環(huán)境。這些工具包括防火墻、證書(shū)管理、跨VLANS的服務(wù)器適當(dāng)分割、專(zhuān)用實(shí)例或?qū)S弥鳈C(jī)、網(wǎng)絡(luò)和文件系統(tǒng)加密等。
根據(jù)他們的業(yè)務(wù),組織可能會(huì)受到法律和法規(guī)的約束,包括HIPAA、PCI、GDPR或各種財(cái)務(wù)需求。保護(hù)數(shù)據(jù)的失敗可能導(dǎo)致嚴(yán)重后果。在分析和人工智能(例如機(jī)器學(xué)習(xí)模型訓(xùn)練)中,新興的高性能應(yīng)用程序越來(lái)越多地在監(jiān)管所覆蓋的數(shù)據(jù)集上運(yùn)行。對(duì)一些應(yīng)用來(lái)說(shuō),監(jiān)管可能不是一個(gè)令人擔(dān)憂(yōu)的問(wèn)題,但企業(yè)仍然擔(dān)心保護(hù)自己的知識(shí)產(chǎn)權(quán)。
無(wú)論數(shù)據(jù)駐留在企業(yè)數(shù)據(jù)中心還是在云提供商,組織都要對(duì)滿(mǎn)足監(jiān)管要求所負(fù)責(zé)。管理云服務(wù)提供商的訣竅是確保您將所有適用于您的業(yè)務(wù)的法律和法規(guī)要求都應(yīng)用到您的供應(yīng)商。
企業(yè)需要對(duì)云提供商進(jìn)行盡職調(diào)查,考慮到它們的財(cái)務(wù)穩(wěn)定性、數(shù)據(jù)中心的物理安全、災(zāi)難恢復(fù)計(jì)劃以及技術(shù)專(zhuān)長(zhǎng)水平等問(wèn)題。盡管風(fēng)險(xiǎn)是真實(shí)且重要的,但無(wú)論誰(shuí)運(yùn)營(yíng)基礎(chǔ)設(shè)施,它們都可能存在。