2019年到處都是過(guò)渡。急于使用公共云的企業(yè)開(kāi)始將應(yīng)用程序帶回。他們還開(kāi)始使用軟件定義的技術(shù)而不是存儲(chǔ)陣列來(lái)部署1級(jí)工作負(fù)載。變化是唯一不變的,因?yàn)樗c財(cái)富1000強(qiáng)的存儲(chǔ)部署有關(guān)。
在數(shù)據(jù)中心發(fā)生變化的同時(shí),對(duì)下一代存儲(chǔ)基礎(chǔ)架構(gòu)的關(guān)鍵要求也變得清晰起來(lái)。Datera由SDS架構(gòu)師和前最終用戶組成,并與數(shù)十家財(cái)富1000強(qiáng)公司合作,以了解其存儲(chǔ)需求。
盡管它認(rèn)識(shí)到每個(gè)組織的應(yīng)用程序和需求都是不同的,但從這個(gè)有利的角度來(lái)看,我們開(kāi)發(fā)了一系列通用要求和最佳實(shí)踐,以幫助組織快速邁向新的,更好的數(shù)據(jù)基礎(chǔ)架構(gòu)。
《財(cái)富》 1000強(qiáng)企業(yè)評(píng)估的存儲(chǔ)類(lèi)別和目標(biāo)
入門(mén)時(shí),我們建議您首先研究驅(qū)動(dòng)不同需求組的4種主要存儲(chǔ)技術(shù)類(lèi)別。
企業(yè)閃存陣列:無(wú)論是獨(dú)立部署還是作為融合設(shè)備部署,領(lǐng)先廠商的陣列都散布在地板上。企業(yè)希望保留陣列的優(yōu)點(diǎn)-性能水平,可用性的9s,同時(shí)又遠(yuǎn)離缺點(diǎn)-高成本,靈活性,鎖定,介質(zhì)選擇的同質(zhì)性,甚至需要FC實(shí)現(xiàn)性能和穩(wěn)定性。
公共云服務(wù):公共云的影響不可夸大。AWS,Google Cloud和Microsoft Azure(均未使用陣列來(lái)構(gòu)建其超大規(guī)模數(shù)據(jù)中心)向市場(chǎng)表明,可以以新的,更敏捷的和更具成本效益的方式完成基礎(chǔ)架構(gòu)。同樣,企業(yè)希望了解他們是否也可以以這種方式構(gòu)建基礎(chǔ)架構(gòu),以實(shí)現(xiàn)相同水平的運(yùn)營(yíng)敏捷性和速度,并像云播放器一樣在以太網(wǎng)而不是FC上實(shí)現(xiàn),但是他們還希望避免巨額成本每月賬單中的通貨膨脹率,通常比本地基礎(chǔ)架構(gòu)高5倍。
HCI:HCI的增長(zhǎng)仍然強(qiáng)勁,特別是在新興地區(qū)。它為共享的基礎(chǔ)結(jié)構(gòu)和軟件定義的方法提供了簡(jiǎn)單的入口,但顯示了系統(tǒng)在規(guī)模,性能和硬件利用率方面的固有限制。企業(yè)希望保留HCI軟件供應(yīng)商提供的簡(jiǎn)單的部署和采購(gòu)模型,但要這樣做,而不會(huì)遇到困擾領(lǐng)先的HCI平臺(tái)的常見(jiàn)問(wèn)題,例如“嘈雜的鄰居”綜合癥,其中某些應(yīng)用程序或租戶會(huì)使基礎(chǔ)架構(gòu)負(fù)擔(dān)過(guò)多并損害其他基礎(chǔ)設(shè)施。應(yīng)用程序,并且無(wú)法擴(kuò)展到單個(gè)集群內(nèi)的整體流程之外。
SDS:SDS被視為結(jié)合了其他存儲(chǔ)選擇的最佳屬性-陣列的專(zhuān)用性能,公共云的敏捷性以及合并HCI應(yīng)用程序和租戶的潛力-以及自動(dòng)化的其他好處,同時(shí)減少了供應(yīng)商鎖定-自成立以來(lái)就已經(jīng)遍及整個(gè)行業(yè)。盡管長(zhǎng)期以來(lái)它的好處顯而易見(jiàn),但重要的是測(cè)試多個(gè)供應(yīng)商之間的關(guān)系,以了解在啟用數(shù)據(jù)管理服務(wù)(例如加密,壓縮,重復(fù)數(shù)據(jù)刪除)的情況下性能和可用性的差異。同樣重要的是測(cè)試自動(dòng)化的可靠性,以提高QoS并量化其在理解管理員資源方面的價(jià)值。
《財(cái)富》 1000強(qiáng)公司測(cè)試了新的存儲(chǔ)方法,以維持和擴(kuò)展他們過(guò)去所看到的好處,同時(shí)找到消除舊問(wèn)題并降低成本的新方法。
《財(cái)富》 1000在超大規(guī)模上對(duì)高性能塊工作負(fù)載的要求
本節(jié)包括《財(cái)富》 1000應(yīng)與之進(jìn)行測(cè)試以了解哪些存儲(chǔ)類(lèi)別可以交付的核心要求的列表。您可以根據(jù)您的特定用例進(jìn)一步完善。
延遲:系統(tǒng)必須提供1毫秒以下延遲的一百萬(wàn)或更多IO / s。存儲(chǔ)需求可能會(huì)立即改變,因此至關(guān)重要的是,系統(tǒng)可以快速擴(kuò)展以實(shí)現(xiàn)性能和容量要求。SQL和NoSQL數(shù)據(jù)庫(kù)需要高IO / s和低延遲的存儲(chǔ)系統(tǒng),這些系統(tǒng)可以輕松擴(kuò)展性能和容量。在1毫秒以下測(cè)試一百萬(wàn)個(gè)IO / s是一個(gè)常見(jiàn)的閾值,因此我們建議您從此處開(kāi)始,并在您的特定工作負(fù)載需要時(shí)再添加更多。另外,測(cè)試是否可以通過(guò)支持添加的非對(duì)稱(chēng)媒體節(jié)點(diǎn)(包括NVMe和Intel Optane等存儲(chǔ)類(lèi)內(nèi)存(SCM))來(lái)擴(kuò)展此功能。
吞吐量:系統(tǒng)必須支持至少64GB / s的總吞吐量。對(duì)于大多數(shù)組織而言,吞吐量已變得比原始存儲(chǔ)性能更為重要,因?yàn)橥掏铝渴呛饬繎?yīng)用程序(而非存儲(chǔ))性能的最終指標(biāo),并且在多租戶環(huán)境中具有很高的價(jià)值。數(shù)據(jù)庫(kù)和其他工作負(fù)載的組合也可能會(huì)提高網(wǎng)絡(luò)的整體性能,這可能需要網(wǎng)絡(luò)和存儲(chǔ)團(tuán)隊(duì)就測(cè)試達(dá)成共識(shí)。與復(fù)雜的FC網(wǎng)絡(luò)相比,這已證明對(duì)于實(shí)現(xiàn)向100GbE和200GbE網(wǎng)絡(luò)(類(lèi)似于公共云提供商)的遷移非常有價(jià)值,并且可以節(jié)省大量的管理時(shí)間和成本。
不對(duì)稱(chēng)縮放:系統(tǒng)必須能夠按粒度(逐個(gè)節(jié)點(diǎn))擴(kuò)展到多個(gè)PB的超大規(guī)模閾值,并在每個(gè)其他節(jié)點(diǎn)上產(chǎn)生額外的粒度容量,性能,持久性和彈性。該系統(tǒng)必須能夠非對(duì)稱(chēng)且快速地從幾百TB擴(kuò)展到幾PB,并且無(wú)中斷地進(jìn)行擴(kuò)展而不會(huì)造成停機(jī)。測(cè)試應(yīng)包括添加各種節(jié)點(diǎn),以證明環(huán)境不僅具有新的容量和功能,而且無(wú)需手動(dòng)調(diào)整即可重新平衡系統(tǒng)。擴(kuò)展環(huán)境不應(yīng)占用大量新的管理時(shí)間,因?yàn)樵谫Y本方面實(shí)現(xiàn)的節(jié)省可能會(huì)被人員的額外費(fèi)用所抵消。這里要特別注意 因?yàn)樵S多企業(yè)看到了系統(tǒng)之間擴(kuò)展的巨大差異。至少要測(cè)試在一個(gè)機(jī)架內(nèi)進(jìn)行擴(kuò)展并在單個(gè)數(shù)據(jù)中心內(nèi)跨機(jī)架和跨通道進(jìn)行橫向擴(kuò)展的能力,因?yàn)闄M向擴(kuò)展架構(gòu)必須實(shí)現(xiàn)這種擴(kuò)展架構(gòu)才能提供企業(yè)尋求的靈活性。
啟用數(shù)據(jù)管理服務(wù)的數(shù)據(jù)性能:即使使用率超過(guò)60%,系統(tǒng)也應(yīng)表現(xiàn)出最小的性能下降。供應(yīng)商習(xí)慣于對(duì)理論性能進(jìn)行非常樂(lè)觀的描述,通常在不使用存儲(chǔ)硬件中利用CPU周期的功能的情況下進(jìn)行測(cè)量。當(dāng)使用基本的數(shù)據(jù)管理服務(wù)時(shí),企業(yè)通常會(huì)在所測(cè)試的系統(tǒng)中看到整個(gè)系統(tǒng)性能的巨大下降,包括壓縮,加密,快照和重復(fù)數(shù)據(jù)刪除,使這些系統(tǒng)無(wú)法啟動(dòng)。當(dāng)應(yīng)用程序流量很高時(shí),請(qǐng)務(wù)必在負(fù)載下測(cè)試系統(tǒng),以了解系統(tǒng)的響應(yīng)方式。這些測(cè)試應(yīng)同時(shí)包含以下要素:數(shù)據(jù)管理的開(kāi)和關(guān),流量高和流量低,以提供最佳的實(shí)際性能。測(cè)試系統(tǒng)的架構(gòu)師還應(yīng)該記錄監(jiān)視工具的時(shí)間順序,以顯示系統(tǒng)隨時(shí)間推移的潮起潮落以及其響應(yīng)方式。否則會(huì)在實(shí)際部署中引起麻煩。
持續(xù)的數(shù)據(jù)可用性:該系統(tǒng)必須設(shè)計(jì)為可用,并且可以承受數(shù)據(jù)中心內(nèi)的多節(jié)點(diǎn),多機(jī)架故障。系統(tǒng)不僅要提供數(shù)據(jù)持久性或正常運(yùn)行時(shí)間,還必須提供無(wú)中斷的軟件更新,在多個(gè)組件故障,斷電,機(jī)架故障和意外的數(shù)據(jù)中心事件中生存。使用快照(在本地和遠(yuǎn)程復(fù)制到公共云),擴(kuò)展群集,故障域和副本數(shù)的組合,可以對(duì)可用性進(jìn)行真正的測(cè)試。所有供應(yīng)商經(jīng)常談?wù)摽捎眯缘?s,但是在這些計(jì)算中經(jīng)常不使用計(jì)劃內(nèi)的停機(jī)時(shí)間。該測(cè)試應(yīng)具有保持完整可用性的能力,同時(shí)更改QoS策略以及添加新節(jié)點(diǎn)。
云運(yùn)營(yíng):該系統(tǒng)必須通過(guò)應(yīng)用程序所有者的簡(jiǎn)單配置和自助服務(wù)利用來(lái)支持應(yīng)用程序和租戶的聚合和合并。術(shù)語(yǔ)云對(duì)財(cái)富1000強(qiáng)有各種不同的需求,并且與服務(wù)提供商或SaaS公司相比,一致性要差得多。但是,通用線程需要支持多個(gè)編排器,包括VMware,Kubernetes,Openstack和裸機(jī),以便支持各種應(yīng)用程序以及有狀態(tài)和無(wú)狀態(tài)事件的速度。重要的是,不僅要針對(duì)每個(gè)單獨(dú)的群集對(duì)它們進(jìn)行隔離測(cè)試,而且還要針對(duì)所有通用群集進(jìn)行測(cè)試。否則,您可能會(huì)冒著使新系統(tǒng)獨(dú)自成為孤島的風(fēng)險(xiǎn),該新系統(tǒng)具有擱淺的數(shù)據(jù)和硬件以及管理開(kāi)銷(xiāo)。進(jìn)一步,Datera建議該測(cè)試包括基于策略的管理的使用,該策略可以允許管理員按類(lèi)而非單個(gè)地設(shè)置和管理應(yīng)用程序組。測(cè)試支持多個(gè)應(yīng)用程序編排的能力只是一個(gè)基本要求。
自主數(shù)據(jù)放置:系統(tǒng)必須根據(jù)預(yù)設(shè)要求將工作負(fù)載自動(dòng)分配和重新分配給適當(dāng)?shù)墓?jié)點(diǎn)。無(wú)論是基于應(yīng)用程序流量(以使數(shù)據(jù)盡可能靠近應(yīng)用程序)還是基于節(jié)點(diǎn)上駐留的存儲(chǔ)介質(zhì)(例如,將正確的數(shù)據(jù)放置在NVMe驅(qū)動(dòng)器上),系統(tǒng)都應(yīng)自動(dòng)對(duì)系統(tǒng)進(jìn)行自我優(yōu)化-廣泛的性能和可用性。初始測(cè)試應(yīng)包括評(píng)估系統(tǒng)基于策略放置數(shù)據(jù)的能力,而高級(jí)測(cè)試應(yīng)檢查工作負(fù)載所傳遞的QoS,以了解系統(tǒng)是否在傳遞正確的位置以及策略是否與所需的SLA正確匹配。
新技術(shù)合并:服務(wù)器(CPU)和媒體級(jí)別的新技術(shù)必須能夠被系統(tǒng)快速部署和利用,而又不增加管理時(shí)間來(lái)使用它們。為了測(cè)試此功能,企業(yè)從各種服務(wù)器類(lèi)型和媒體類(lèi)型開(kāi)始,然后在測(cè)試期間添加新的和不同的節(jié)點(diǎn)。與自主數(shù)據(jù)放置的測(cè)試相似,隨著新節(jié)點(diǎn)的合并,管理員應(yīng)確定是否確實(shí)將數(shù)據(jù)自動(dòng)移動(dòng)到新節(jié)點(diǎn),特別是要移動(dòng)哪些數(shù)據(jù)以利用新的CPU和可用介質(zhì)。增長(zhǎng)環(huán)境可能很容易,但是如果系統(tǒng)沒(méi)有自動(dòng)利用新的容量和馬力,那么增長(zhǎng)會(huì)產(chǎn)生不必要的費(fèi)用。
啟用以太網(wǎng)的BGP對(duì)等互連:系統(tǒng)應(yīng)具有使用通過(guò)核心L3網(wǎng)絡(luò)部署的標(biāo)準(zhǔn)iSCSI進(jìn)行數(shù)據(jù)操作的能力。該測(cè)試應(yīng)包括將BGP集成到路由結(jié)構(gòu)中的演示,這可以在跨數(shù)據(jù)中心的數(shù)據(jù)放置中驅(qū)動(dòng)新的敏捷性層,并且比FC或標(biāo)準(zhǔn)L2網(wǎng)絡(luò)具有更高的敏捷性。
自我修復(fù):該系統(tǒng)應(yīng)具有預(yù)測(cè)分析功能,將系統(tǒng)范圍的信息(通常稱(chēng)為遙測(cè))合并到反饋回路中,以不斷改進(jìn)與所需屬性的對(duì)比。測(cè)試系統(tǒng)范圍的監(jiān)視功能應(yīng)包括了解每個(gè)節(jié)點(diǎn)的延遲,性能和可用性信息,以及系統(tǒng)將網(wǎng)絡(luò)和存儲(chǔ)層上任何問(wèn)題通知測(cè)試管理員的能力。先進(jìn)的系統(tǒng)使用遙測(cè)技術(shù)來(lái)幫助所有用戶實(shí)時(shí)進(jìn)行實(shí)際容量/性能計(jì)劃和最佳實(shí)踐。測(cè)試此功能可確保您選擇的系統(tǒng)有潛力向自身學(xué)習(xí),并在整個(gè)生命周期內(nèi)改善環(huán)境。
鎖定:該系統(tǒng)應(yīng)支持各種硬件配置文件-不同的服務(wù)器供應(yīng)商,不同的服務(wù)器型號(hào),不同的服務(wù)器gen和各種不同的媒體-以消除供應(yīng)商鎖定的可能性。對(duì)于供應(yīng)商而言,基礎(chǔ)設(shè)施行業(yè)是臭名昭著的,因?yàn)樗鼈儗⒖蛻翩i定在人為限制的選擇范圍內(nèi),以豐富客戶的收入。經(jīng)歷過(guò)購(gòu)買(mǎi)陣列甚至公共云合同的現(xiàn)象的企業(yè)正在尋找能夠生成硬件選項(xiàng)而非鎖定的開(kāi)放系統(tǒng)。因此,測(cè)試環(huán)境應(yīng)從一開(kāi)始就尋求納入各種不同的硬件選項(xiàng)。高級(jí)測(cè)試應(yīng)設(shè)法將多個(gè)變量合并到一個(gè)群集中,包括不同的供應(yīng)商,節(jié)點(diǎn)配置文件,媒體類(lèi)型和服務(wù)器類(lèi)型。
《財(cái)富》 1000強(qiáng)客戶可以隨時(shí)隨地致電IT行業(yè)的每個(gè)供應(yīng)商。選擇正確的測(cè)試技術(shù)并使用上面概述的正確的測(cè)試參數(shù),將使他們能夠過(guò)渡到更加自動(dòng)化,可擴(kuò)展和高性能的數(shù)據(jù)操作未來(lái)。
該報(bào)告分別由系統(tǒng)工程總監(jiān)兼技術(shù)產(chǎn)品營(yíng)銷(xiāo)高級(jí)總監(jiān)Bill Borsari和Brett Schechter 在Datera公司的博客上撰寫(xiě),并于2020年2月19日發(fā)布。