要說近幾年存儲這條街最靚的仔,莫過于分布式存儲了。
自誕生以來,分布式存儲就被視為存儲的未來,被萬眾期待。然而分布式存儲起步于寒門,最早應(yīng)用于互聯(lián)網(wǎng)日志、企業(yè)備份歸檔、開發(fā)測試等場景,追求極致成本,性能和可靠性卻不敢恭維。但它還算爭氣,憑借多年的打怪練級,越來越多地開始承載自動駕駛研發(fā)、超高清編輯、運營商5G網(wǎng)絡(luò)云等企業(yè)的關(guān)鍵業(yè)務(wù),走上變成高富帥、贏取白富美的道路。
正所謂人紅是非多,存儲領(lǐng)域也是一樣,坊間一直流傳著關(guān)于分布式存儲的各種流言蜚語。好事的筆者今天就來探尋一番,揭開謊言背后的真相。
謊言一:分布式存儲就是軟件+服務(wù)器
目測分布式存儲領(lǐng)域有兩個派系,一派是SDS(軟件定義存儲),一派是軟硬一體。前者以vSAN、Ceph為代表,以軟件廠商為主在推廣。分布式存儲軟件+通用服務(wù)器組合,打著重定義存儲市場的旗幟,頗有“有王侯將相寧有種乎”的氣勢;另一派是存儲老牌存儲玩家的產(chǎn)品,他們以軟硬一體為主,如Isilon、HCP等。
楚河漢界已然形成,未來誰主沉???
誰主沉浮很難判斷,不過我們不妨從產(chǎn)業(yè)動態(tài)窺見一斑。雖然用過的客戶都詬病分布式存儲軟件+服務(wù)器的方式存在各種兼容性、可靠性、可維護性的問題,但筆者認為SDS這種模式會長期存在,尤其是在傳統(tǒng)的低端領(lǐng)域,如備份歸檔、開發(fā)測試環(huán)境。而越往高端走,軟硬一體越是占據(jù)主流。業(yè)界主流廠商也在持續(xù)推出軟硬一體的產(chǎn)品:
國外,DELL&EMC的PowerScale(Isilon)、DDN的EXAScaler等產(chǎn)品;
國內(nèi)XSKY、浪潮等Ceph系開源廠商也推出了軟硬件一體產(chǎn)品如XScaler Express。尤其有趣的是XSKY,這可是國內(nèi)Ceph系軟件定義存儲的旗幟啊,你品,你細品。
另一方面,筆者也注意到近些年運營商開展了大規(guī)模的分布式存儲集采,有文件的有塊的。以中國移動2019~2020年分布式塊存儲集采為例,3個標(biāo)段中2個為軟硬一體采購,占比超過了90%;電信集團2020年集采也放棄了分布式存儲純軟件采購,首次全面轉(zhuǎn)向軟硬一體。從這個角度看,用戶在嘗試了多種采購模式之后,也開始逐步轉(zhuǎn)變到軟硬一體的道路上來,尤其是大型用戶。
真相:分布式存儲誕生初期主要是純軟形態(tài),近十年來,隨著分布式存儲逐步進入企業(yè)市場,軟硬一體的形成已經(jīng)成為主流。
謊言二:分布式存儲就是低價值存儲
如文章開頭講到的,分布式存儲早期主要用于互聯(lián)網(wǎng)日志、企業(yè)備份歸檔、開發(fā)測試等場景,這些場景無疑是低價值場景,成本是第一訴求甚至唯一訴求。
然此一時彼一時,士別三日也當(dāng)刮目相看。
首先是分布式存儲產(chǎn)品能力已今非昔比,逐漸具備了承載企業(yè)高價值業(yè)務(wù)的關(guān)鍵能力,例如毫秒級時延、TB/s級帶寬、雙活/3DC業(yè)務(wù)級容災(zāi)、端到端DIF等,無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù)的承載,功能完備性的最大短板早已補齊。
其次,分布式存儲已走入眾多高價值關(guān)鍵業(yè)務(wù),如運營商BOM業(yè)務(wù)、金融渠道類業(yè)務(wù)以及超算、油藏探測HPC等高價值業(yè)務(wù),通過大規(guī)模應(yīng)用實踐來檢驗成色。(小道消息,某些高價值場景全閃出貨價達到1000美金/TB以上啦)
看完當(dāng)下還要看看未來,筆者認為未來高價值的非結(jié)構(gòu)化數(shù)據(jù)場景,分布式存儲的版圖還會持續(xù)擴展。如自動駕駛訓(xùn)練、4K/8K超高清、5G日志留存等場景,對多協(xié)議訪問、極致帶寬、擴展性訴求強烈,分布式存儲已然成為這些未來業(yè)務(wù)的首選架構(gòu)。
#真相#:分布式存儲早期主要用在備份歸檔等低價值、強成本訴求的場景,如今隨著企業(yè)級能力的提升,分布式存儲也逐步成為企業(yè)生產(chǎn)系統(tǒng)的承載平臺,尤其是面向海量非結(jié)構(gòu)數(shù)據(jù)場景,全面支撐文件資源池和HPC等高價值場景。
謊言三:開源架構(gòu)是分布式存儲的未來
筆者對開源從來是持開放、支持的態(tài)度,正是因為開源的存在,IT產(chǎn)業(yè)才能有今天的繽紛色彩;也正是因為開源,存儲這個高大上的產(chǎn)品,才走進了更多的尋常百姓家。
但如果說存儲的未來在開源,我不敢茍同。
開源分布式存儲軟件的出現(xiàn),一定程度上降低了存儲的門檻,小公司可快速包裝出存儲產(chǎn)品,帶動服務(wù)器銷售。但產(chǎn)品同質(zhì)化問題是所有開源不得不面臨的問題,由于架構(gòu)限制,很難在不動架構(gòu)的情況下,真正做出差異化競爭力?;ヂ?lián)網(wǎng)類公司、部分科研機構(gòu),以及有技術(shù)情結(jié)和充足資金投入的客戶可能選擇開源,而對于金融、電信運營商、大企業(yè)商用HPC、政府等對可靠性、性能、安全合規(guī)有要求的企業(yè),開源從來不是第一選擇,因為數(shù)據(jù)太重要了。(聽說,國內(nèi)某知名銀行曾經(jīng)投入500人基于開源軟件搭建分布式存儲,投入巨大且無法達銀行業(yè)務(wù)對性能、可靠性、易運維訴求,最終于2年后放棄。)
也有認為開源更自主可控的。筆者認為開源給了用戶一定的自主權(quán),但和自主可控是兩個概念。據(jù)SNYK 2019年開源安全狀況報告說明,開源軟件漏洞在兩年時間內(nèi)增加了88%,開源風(fēng)險的解決強依賴于社區(qū)版本發(fā)布,不能及時規(guī)避。同時,近兩年國際形勢的大變化,給開放著稱的開源蒙上了一層陰影。
此外,業(yè)界TOP主流分布式存儲產(chǎn)品均是閉源架構(gòu),如PowerScale(Isilon)、Spectrum Scale、Nutanix、OceanStor Pacific、VSAN、HCP,翻看了一下三個月前發(fā)布的IDC市場份額報告,TOP5分布式存儲廠商中,基于開源二次開發(fā)的廠商份額僅占18%。
真相:開源只是部分廠商的商業(yè)選擇,分布式存儲產(chǎn)業(yè)的主流還是非開源,并且開源并不代表更加自主可控。
謊言四:分布式存儲可全面取代企業(yè)外置存儲
這是一個在存儲領(lǐng)域爭論最大的問題。
正所謂長江后浪推前浪,分布式存儲快速增長是不可否認的,這從各大廠商的業(yè)績報告和分析師報告就能看出來,但想要把企業(yè)外置存儲這個前浪拍死在沙灘上還是步子邁太大,不現(xiàn)實。
企業(yè)外置存儲在相當(dāng)長的一段時間內(nèi),仍然是主流。它主要面向企業(yè)傳統(tǒng)應(yīng)用如ERP/CRM/HIS等,數(shù)據(jù)量不大但對可靠性、性能有極致要求,如銀行Core-Banking,從可靠性、生態(tài)層面,分布式存儲都不是最佳選擇。分布式存儲主要面向海量數(shù)據(jù)、新興業(yè)務(wù)場景,如HPC/EDA、大數(shù)據(jù),這類場景以二進制文件、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)量極大。所以從場景來看,二者場景是有明確區(qū)隔的,按場景并存是最好的選擇。
從技術(shù)的角度,分布式存儲的發(fā)力點在大規(guī)模的擴展性,基于此逐步優(yōu)化性能、可靠性,讓海量數(shù)據(jù)存得下、用得起;集中式存儲的技術(shù)方向在于保持穩(wěn)定性的基礎(chǔ)上,利用更快的介質(zhì)、更低時延的網(wǎng)絡(luò)為核心業(yè)務(wù)提供加速,讓業(yè)務(wù)更穩(wěn)、效率更高。因此,從技術(shù)方向上來看,二者也是各有側(cè)重的。
真相:分布式存儲和企業(yè)外置存儲并非取代關(guān)系,二者相輔相成、互為補充。企業(yè)外置存儲主要面向結(jié)構(gòu)化數(shù)據(jù)市場,分布式存儲主要面對海量非結(jié)構(gòu)化數(shù)據(jù)市場(高價值分布式文件、分布式對象)。
謊言五:分布式存儲就是“云”
IT潮流滾滾向前,每隔幾年總是需要有一些新概念。
云和分布式存儲一樣,這些年正在大行其道、炙手可熱。Cloud First、All in Cloud、Cloud Native等概念風(fēng)靡業(yè)界,CIO見面不提云貌似都不好意思打招呼。早期人們也習(xí)慣把分布式存儲叫做“云存儲”,那么分布式存儲和云是什么關(guān)系?
筆者認為,分布式存儲是一種技術(shù)架構(gòu),而云是一種商業(yè)模式。分布式存儲可以被用作各種云的數(shù)據(jù)底座,也可以單獨成為數(shù)據(jù)底座,是配合的關(guān)系,而非替換和包含關(guān)系。
其實,從與業(yè)界公有云廠商的溝通了解到,公有云雖然近年來加強對傳統(tǒng)IT市場的轉(zhuǎn)換,但公有云數(shù)據(jù)增長更多還是來自新興場景。以美國市場為例,近年來AWS持續(xù)快速增長,但PowerScale(Isilon)作為Dell&EMC面向非結(jié)構(gòu)化數(shù)據(jù)場景的主力產(chǎn)品,并且近60%的銷售收入來自于北美市場,依然保持以每年近20%的速度穩(wěn)步增長。
從場景看,多數(shù)海量存儲場景,因客戶數(shù)據(jù)安全、生態(tài)、招標(biāo)模式等原因,以線下采購為主,公有云為輔助。以HPC為例,云上HPC給業(yè)界提供了一種新的方式,讓更多用戶能享受到公有云帶來的便利性。但實際上HPC主要用于創(chuàng)新研究,對數(shù)據(jù)安全要求高,上云是有顧慮。參考Hyperion Research報告顯示,到2024年云上HPC的收入占比僅17.7%,收入占比很低。
真相:分布式存儲是一個產(chǎn)品,云是一種商業(yè)模式是一種服務(wù)形式,二者不沖突,長期共存是未來。