近年來,數(shù)據(jù)量高速增長,全球數(shù)據(jù)總量每一年半就能翻番,海量數(shù)據(jù)匯聚一堂,給數(shù)據(jù)中心的存儲(chǔ)帶來了巨大壓力。數(shù)據(jù)海嘯席卷而來,那么數(shù)據(jù)中心究竟該如何應(yīng)對(duì)這場數(shù)據(jù)海嘯那?
若按照IDC的預(yù)測,到2025年,全球?qū)?huì)有163個(gè)ZB的數(shù)據(jù),這個(gè)量相當(dāng)于四個(gè)大西洋的海水,全球數(shù)據(jù)中心流量將增長3.3倍。數(shù)據(jù)量增長的速度有如一場海嘯,迅速地吞噬著全球數(shù)據(jù)中心的各種存儲(chǔ)設(shè)備和器件,數(shù)據(jù)中心耗費(fèi)巨資不斷購入大量存儲(chǔ)設(shè)備,以便盡量去滿足不斷增長的數(shù)據(jù)量存儲(chǔ)需求,這給數(shù)據(jù)中心帶來了極大的成本壓力,降低了數(shù)據(jù)中心的盈利水平。數(shù)據(jù)海嘯已經(jīng)成為每個(gè)數(shù)據(jù)中心不能回避的問題,數(shù)據(jù)中心必須做出有效對(duì)策,才能不被數(shù)據(jù)海嘯打倒。那么如何有效應(yīng)對(duì)數(shù)據(jù)海嘯呢?本文給出了一些對(duì)癥良方。
刪除無用數(shù)據(jù)
表面上看數(shù)據(jù)量在高速增長,但很多數(shù)據(jù)從某些方面來講都是重復(fù)的、無用的,沒有利用價(jià)值,完全可以丟棄不用。在對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí),一定要進(jìn)行過濾,阻止垃圾數(shù)據(jù)進(jìn)入存儲(chǔ)設(shè)備。很多數(shù)據(jù)還具有高度重復(fù)性,也許每個(gè)人都會(huì)收藏一部經(jīng)典的電影《人鬼情未了》,并將這部電影放到數(shù)據(jù)中心里個(gè)人的存儲(chǔ)空間保存著,以便想看的時(shí)候直接登錄上去播放看就可以了,這個(gè)電影絕大部分時(shí)間都是在數(shù)據(jù)中心的存儲(chǔ)設(shè)備里靜靜地存著,毫無意義還占用巨大存儲(chǔ)空間。所以,數(shù)據(jù)中心可以只存儲(chǔ)一份這部電影,然后存儲(chǔ)無數(shù)個(gè)人用戶的數(shù)據(jù)鏈接,當(dāng)人們需要看這部電影時(shí),表面上看是點(diǎn)擊了這部電影播放,后臺(tái)實(shí)際上只是一個(gè)數(shù)據(jù)鏈接,然后將存儲(chǔ)的一份電影向其播放,這將極大地減少數(shù)據(jù)的存儲(chǔ)空間,對(duì)于其它重復(fù)性的數(shù)據(jù)也可以如此實(shí)現(xiàn)。我們知道,一般一個(gè)應(yīng)用軟件的使用時(shí)間在二十年,很多軟件其實(shí)已經(jīng)很少有人訪問,存留下來的大量數(shù)據(jù)都變成了無用數(shù)據(jù),數(shù)據(jù)中心要及時(shí)將這些數(shù)據(jù)清理掉,讓出存儲(chǔ)空間來,節(jié)約存儲(chǔ)設(shè)備使用,數(shù)據(jù)中心的存儲(chǔ)資源是有限的,遲早有用完的這一天,這一天來得越晚,就越能給數(shù)據(jù)中心節(jié)省成本,帶來的是數(shù)據(jù)中心的優(yōu)越競爭力。一些中間計(jì)算數(shù)據(jù)也占用了臨時(shí)存儲(chǔ)空間,要及時(shí)清理掉。還有,對(duì)于這個(gè)數(shù)據(jù)中心來說,數(shù)據(jù)可能是有用的,通過大數(shù)據(jù)技術(shù)分析可以得到一些有用的東西,而這些數(shù)據(jù)中心對(duì)其它的數(shù)據(jù)來說可能是無用的,再怎么分析也得不到有益結(jié)果,這些數(shù)據(jù)不妨直接刪除,不要再占用數(shù)據(jù)中心存儲(chǔ)空間。其實(shí),數(shù)據(jù)中心里百分之九十的數(shù)據(jù)都可以說是無用數(shù)據(jù),應(yīng)及時(shí)清除。
利用壓縮技術(shù)
眾所周知,數(shù)據(jù)是可以壓縮的。我們?cè)趯?shù)據(jù)保存到存儲(chǔ)設(shè)備之前,可以對(duì)數(shù)據(jù)進(jìn)行壓縮,盡量減少占用空間。數(shù)據(jù)壓縮技術(shù)在不斷進(jìn)步,壓縮比越來越高,減緩了數(shù)據(jù)對(duì)存儲(chǔ)空間的消耗。壓縮技術(shù)有無損壓縮和有損壓縮,無損壓縮主要是一些編碼算法,比如子帶編碼,差分編碼,哈夫曼編碼等算法;有損壓縮主要是一些量化算法,比如a率、u率、lloyds最優(yōu)量化算法。對(duì)于一些不重要的音頻、視頻資源,適當(dāng)?shù)厥褂靡恍┯袚p壓縮技術(shù),對(duì)數(shù)據(jù)的使用并沒有影響,還可以大大提升壓縮效果。對(duì)于一些本文文件,即便是使用無損壓縮,也可以將文件縮減幾十倍,甚至上百倍。壓縮技術(shù)的普及使用,可以有效緩解數(shù)據(jù)存儲(chǔ)的壓力,要在數(shù)據(jù)中心里推廣使用。當(dāng)然,對(duì)那些訪問實(shí)時(shí)性較高的數(shù)據(jù),并不適宜采用壓縮存儲(chǔ),因?yàn)閿?shù)據(jù)的解壓是需要時(shí)間的,壓縮比越高的數(shù)據(jù)解壓起來更加耗時(shí),這樣在訪問這樣的壓縮數(shù)據(jù)時(shí),需要更多的等待時(shí)間,降低了訪問效率,對(duì)于這樣的訪問不適合使用壓縮算法保存數(shù)據(jù)。壓縮技術(shù)也在不斷進(jìn)步,解壓時(shí)間也在不斷縮短,這樣就能不斷擴(kuò)大壓縮技術(shù)使用的廣泛性。
擴(kuò)容網(wǎng)絡(luò)帶寬
數(shù)據(jù)量越大,需要占用的網(wǎng)絡(luò)帶寬就越多。正是因?yàn)閿?shù)據(jù)量的不斷攀升,我們就需要更高的帶寬,有些時(shí)候,甚至網(wǎng)絡(luò)帶寬的高低已成為了影響數(shù)據(jù)中心業(yè)務(wù)部署發(fā)展最為關(guān)鍵的因素。網(wǎng)絡(luò)帶寬越高,數(shù)據(jù)傳輸?shù)迷娇?,就可避免網(wǎng)絡(luò)出現(xiàn)堵塞情況,影響到數(shù)據(jù)中心業(yè)務(wù)運(yùn)行。數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計(jì)要從簡,網(wǎng)絡(luò)層級(jí)要少,設(shè)計(jì)扁平化的網(wǎng)絡(luò),從接入到核心出口一般就設(shè)計(jì)兩級(jí),這樣網(wǎng)絡(luò)中出現(xiàn)擁塞的點(diǎn)就少。網(wǎng)絡(luò)流量模型不要設(shè)計(jì)成茶壺型的,口小肚大。要設(shè)計(jì)成圓筒形,出入口要大,這樣向數(shù)據(jù)中心里裝的數(shù)據(jù)才夠快。擴(kuò)容網(wǎng)絡(luò)帶寬并不僅指網(wǎng)絡(luò)出入口的地方,還要從網(wǎng)絡(luò)整體上來進(jìn)行規(guī)劃設(shè)計(jì),包括連接服務(wù)器和存儲(chǔ)側(cè)都要考慮,提高數(shù)據(jù)中心內(nèi)架頂式交換機(jī)與服務(wù)器網(wǎng)卡、存儲(chǔ)設(shè)備之間的速度,避免出現(xiàn)大馬拉小車或者小馬拉大車的情況出現(xiàn)。
隨著海量數(shù)據(jù)的到來,現(xiàn)有的數(shù)據(jù)中心存儲(chǔ)能力是遠(yuǎn)遠(yuǎn)不足的。數(shù)據(jù)中心要從多方面去迎接這次數(shù)據(jù)海嘯的到來。至少近十年,全球數(shù)據(jù)依然會(huì)保持高位增長態(tài)勢(shì),數(shù)據(jù)海嘯給數(shù)據(jù)中心帶來了極大的存儲(chǔ)壓力。海量數(shù)據(jù)一直在高速增長,我們必須想辦法將其控制下來,未來的數(shù)據(jù)中心會(huì)在怎樣縮小海量數(shù)據(jù)上下功夫,不會(huì)任由數(shù)據(jù)海嘯擴(kuò)張。數(shù)據(jù)中心除了從以上三個(gè)方面狙擊數(shù)據(jù)海嘯,還可以在提升存儲(chǔ)使用率、優(yōu)化存儲(chǔ)資源分配、無效數(shù)據(jù)甄別能力、云計(jì)算和大數(shù)據(jù)的應(yīng)用等方面加大投入。這些都是應(yīng)對(duì)數(shù)據(jù)海嘯很好的方法,需要在未來的數(shù)據(jù)中心中去應(yīng)用和實(shí)踐。
(原標(biāo)題:數(shù)據(jù)中心如何應(yīng)對(duì)數(shù)據(jù)海嘯)