數(shù)據(jù)中心日常維護(hù)工作有哪些?

解密數(shù)據(jù)機(jī)房管理
對(duì)數(shù)據(jù)中心的機(jī)房環(huán)境也要進(jìn)行檢查,環(huán)境的溫度、濕度、灰塵是否合乎要求??照{(diào)、供電系統(tǒng)進(jìn)行運(yùn)行良好,設(shè)備運(yùn)行是否過(guò)熱,地板、天窗、消防、監(jiān)控都是檢查的部分。不合理的地方要及時(shí)進(jìn)行整改,而不應(yīng)該偷懶。

數(shù)據(jù)中心要保持穩(wěn)定的運(yùn)行,需要大量的專(zhuān)業(yè)技術(shù)人員。一般承擔(dān)重要業(yè)務(wù)的數(shù)據(jù)中心都是有人24小時(shí)值守,無(wú)人值守的數(shù)據(jù)中心一般只能承擔(dān)不重要業(yè)務(wù),完全無(wú)人管理維護(hù)的數(shù)據(jù)中心幾乎沒(méi)有。所以數(shù)據(jù)中心日常維護(hù)工作煩瑣,但又很重要。隨著人們的工作生活對(duì)數(shù)據(jù)的完全依賴(lài),承載數(shù)據(jù)計(jì)算、運(yùn)行的數(shù)據(jù)中心正發(fā)揮著越來(lái)越重要的作用,這更突顯出維護(hù)工作的重要。

當(dāng)一個(gè)數(shù)據(jù)中心建成投產(chǎn)后,維護(hù)工作就開(kāi)始了,一直到數(shù)據(jù)中心的生命周期結(jié)束。一般我們可以將數(shù)據(jù)中心的維護(hù)工作分為四大類(lèi):一是日常檢查類(lèi);二是應(yīng)用變更、部署類(lèi);三是軟、硬件升級(jí)類(lèi);四是突發(fā)故障處理類(lèi),下面就來(lái)詳細(xì)說(shuō)一說(shuō)這些維護(hù)工作,讓大家對(duì)維護(hù)工作有個(gè)了解。

360截圖16440809323970.png

日常檢查

“千里之堤,潰于蟻穴”。任何的故障在出現(xiàn)之前都可能會(huì)有所表現(xiàn),小的隱患不消除,可能導(dǎo)致重大的故障出現(xiàn),所以數(shù)據(jù)中心日常的例行檢查工作枯燥,但也很重要,可以及時(shí)發(fā)現(xiàn)一些運(yùn)行中的隱患。根據(jù)數(shù)據(jù)中心承載業(yè)務(wù)重要性的不同,要對(duì)數(shù)據(jù)中心里的所有運(yùn)行的設(shè)備進(jìn)行例行檢查。一些數(shù)據(jù)中心設(shè)備廠商提供了檢查軟件,比如網(wǎng)管軟件,安全防護(hù)軟件等??梢岳眠@些軟件對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)行檢查,看日志是否有異常告警,網(wǎng)絡(luò)是否出現(xiàn)過(guò)短時(shí)中斷,端口是否出現(xiàn)UP/DOWN等。通過(guò)網(wǎng)絡(luò)探測(cè)軟件看網(wǎng)絡(luò)質(zhì)量如何。檢查服務(wù)器應(yīng)用服務(wù)是否正常,CPU內(nèi)存等利用率是否正常。對(duì)應(yīng)用業(yè)務(wù)進(jìn)行檢查,比如如果有搜索業(yè)務(wù),就可以通過(guò)服務(wù)器進(jìn)行單詞搜索,看搜索的結(jié)果和延遲是否在正常的范圍之內(nèi)。這些檢查每日都要重復(fù)檢查,一旦有異常及時(shí)處理與消除,必要時(shí)將重要業(yè)務(wù)切換到備用環(huán)境中,然后排除后再切回。

對(duì)數(shù)據(jù)中心的機(jī)房環(huán)境也要進(jìn)行檢查,環(huán)境的溫度、濕度、灰塵是否合乎要求。空調(diào)、供電系統(tǒng)進(jìn)行運(yùn)行良好,設(shè)備運(yùn)行是否過(guò)熱,地板、天窗、消防、監(jiān)控都是檢查的部分。不合理的地方要及時(shí)進(jìn)行整改,而不應(yīng)該偷懶。經(jīng)常到一些數(shù)據(jù)中心,就會(huì)發(fā)現(xiàn)值班維護(hù)人員很多都抱著電腦在瀏覽網(wǎng)頁(yè),打游戲。對(duì)于日常檢查應(yīng)付一下,甚至根本不去檢查,只要沒(méi)有出現(xiàn)故障,就打游戲消耗時(shí)間,這樣數(shù)據(jù)中心出現(xiàn)故障是遲早的事。一旦出現(xiàn)故障就毛手毛腳,甚至哪個(gè)業(yè)務(wù)走的哪個(gè)設(shè)備,哪個(gè)端口哪個(gè)網(wǎng)線都不清楚,本來(lái)一個(gè)小故障可能因?yàn)椴皇煜?dǎo)致大故障,因此日常檢查絕不能應(yīng)付,雖然需要不斷重復(fù),但卻很重要,在持續(xù)的檢查過(guò)程中,將會(huì)對(duì)數(shù)據(jù)中心的理解越來(lái)越深,這樣每次檢查都會(huì)有新的發(fā)現(xiàn),在檢查中進(jìn)行學(xué)習(xí)。

應(yīng)用變更

數(shù)據(jù)中心承載的業(yè)務(wù)不會(huì)是一成不變的,隨著業(yè)務(wù)的多樣化,經(jīng)常要對(duì)業(yè)務(wù)進(jìn)行調(diào)整,包括服務(wù)器和網(wǎng)絡(luò)的設(shè)置。因此要對(duì)服務(wù)器和網(wǎng)絡(luò)設(shè)備操作很熟悉,主要需要掌握Linux服務(wù)器命令和網(wǎng)絡(luò)協(xié)議。要根據(jù)應(yīng)用的需要,做出變更。這時(shí)就對(duì)維護(hù)人員提出了更高的要求,不僅是對(duì)數(shù)據(jù)中心原有業(yè)務(wù)要非常熟悉,還要對(duì)新上的應(yīng)用業(yè)務(wù)有正確的理解,這樣才能在不影響原有業(yè)務(wù)的基礎(chǔ)上做調(diào)整。這樣的應(yīng)用變更每個(gè)月可能都要做幾次,是數(shù)據(jù)中心維護(hù)人員的必修課,突顯了一個(gè)技術(shù)人員的基本技能水平。這時(shí)要對(duì)設(shè)備操作命令比較熟悉,懂得如何實(shí)現(xiàn)業(yè)務(wù),要經(jīng)常和設(shè)備廠商的技術(shù)人員打交道,通過(guò)交流盡快掌握設(shè)備操作方法。同時(shí),由于設(shè)備廠商對(duì)應(yīng)用業(yè)務(wù)缺乏了解,這就需要維護(hù)人員在應(yīng)用業(yè)務(wù)和設(shè)備具體實(shí)現(xiàn)之間做好協(xié)調(diào),處理。以最快的時(shí)間和最小的代價(jià)完成應(yīng)用業(yè)務(wù)部署。

軟硬件升級(jí)

數(shù)據(jù)中心的設(shè)備一般運(yùn)行周期是五年,不斷地有設(shè)備需要逐漸淘汰進(jìn)行更換,也有一些設(shè)備因?yàn)榇嬖谲浖毕菪枰?jí),因此軟硬件升級(jí)也是維護(hù)工作的一部分,尤其是軟硬件出現(xiàn)故障時(shí),就必須要進(jìn)行更換。有時(shí)為了不影響業(yè)務(wù),往往還需要設(shè)備廠商提供軟件補(bǔ)丁來(lái)解決問(wèn)題。數(shù)據(jù)中心的設(shè)備成百上千,出現(xiàn)軟硬件故障很正常,所以要不斷地進(jìn)行軟硬件升級(jí),這類(lèi)工作往往都要在業(yè)務(wù)量最少的凌晨之后進(jìn)行,維護(hù)人員通宵熬夜是常有的事,維護(hù)人員要有一個(gè)良好的身體素質(zhì),否則會(huì)吃不消。軟硬件升級(jí)時(shí)需要做好回退機(jī)制,以防升級(jí)出現(xiàn)問(wèn)題時(shí)無(wú)法回退,業(yè)務(wù)長(zhǎng)時(shí)間無(wú)法恢復(fù)。當(dāng)接手?jǐn)?shù)據(jù)中心維護(hù)工作就會(huì)發(fā)現(xiàn),怎么會(huì)有那么多的升級(jí),幾乎每個(gè)月都要有升級(jí)操作,熬夜升級(jí)工作成了維護(hù)人員的家常便飯。

突發(fā)故障

沒(méi)有任何一個(gè)數(shù)據(jù)中心是不出故障的,在數(shù)據(jù)中心運(yùn)行的過(guò)程中都會(huì)出現(xiàn)這樣那樣的問(wèn)題。這時(shí)就顯示出維護(hù)人員的高技能水平,根據(jù)統(tǒng)計(jì)百分之八十的故障都是人為故障,所以維護(hù)人員的水平高低往往決定了一個(gè)數(shù)據(jù)中心運(yùn)行的穩(wěn)定程度。另外對(duì)于突發(fā)故障,高水平的維護(hù)人員可以靜下心來(lái)冷靜分析故障的觸發(fā)原因,迅速找到解決的方法,如果在短時(shí)間內(nèi)找不到解決方法,也可以通過(guò)切換到備用設(shè)備上先恢復(fù)業(yè)務(wù),再進(jìn)行分析。這時(shí)擁有高水平的維護(hù)人員對(duì)于一個(gè)數(shù)據(jù)中心至關(guān)重要,在關(guān)鍵時(shí)刻就能派上用場(chǎng)。

雖然這些工作看起來(lái)有些平常,但千萬(wàn)別小看它們。數(shù)據(jù)中心維護(hù)工作實(shí)際上非常重要,關(guān)乎著整個(gè)數(shù)據(jù)中心業(yè)務(wù)的正常運(yùn)行。目前市場(chǎng)上這類(lèi)專(zhuān)業(yè)人才非常搶手,尤其對(duì)于具有較深故障排查水平的人才比較缺乏。只有重視數(shù)據(jù)中心的維護(hù)工作,才能給數(shù)據(jù)中心一個(gè)平安。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論