數(shù)據(jù)中心供電系統(tǒng)運(yùn)維常見的人為故障類型

數(shù)據(jù)中心供電系統(tǒng)的可靠性是至關(guān)重要的。可想而知,無論IT設(shè)備多么精密、系統(tǒng)的功能多么優(yōu)越、可靠性多么高,一旦停電,再好的系統(tǒng)也無法運(yùn)轉(zhuǎn)。所以對運(yùn)行中設(shè)備維護(hù)保養(yǎng)的重要性不可忽視,可見維保人員肩上的擔(dān)子是很重的。

運(yùn)維的目的

數(shù)據(jù)中心供電系統(tǒng)的可靠性是至關(guān)重要的??上攵?,無論IT設(shè)備多么精密、系統(tǒng)的功能多么優(yōu)越、可靠性多么高,一旦停電,再好的系統(tǒng)也無法運(yùn)轉(zhuǎn)。所以對運(yùn)行中設(shè)備維護(hù)保養(yǎng)的重要性不可忽視,可見維保人員肩上的擔(dān)子是很重的。

運(yùn)維的任務(wù)和無法解決的問題

為了保障供電系統(tǒng)的可靠運(yùn)行,有很多地方都制定了很多很好的措施。但即使如此也有很多漏洞。設(shè)備出廠后的可靠性就已確定,比如有的先天不足,像有的電源輸出隔離變壓器繞組用鋁漆包線代替了電纜銅漆包線,在滿載運(yùn)行時十有八九是要出事的……不過由于設(shè)備本身的質(zhì)量問題而導(dǎo)致的故障統(tǒng)計表明不足30%,70%的故障來自后天。也就是人為故障,其表現(xiàn)如下:

1、選型不當(dāng)導(dǎo)致的故障

(1)基本概念不清,易受廠家誤導(dǎo)。比如某高速公路招標(biāo)UPS,在標(biāo)書中要求UPS要具有輸入斷一相或兩相后電池不放電,還能繼續(xù)供電的能力。因為有的廠家標(biāo)榜他的UPS在輸入斷一相后電池不放電,UPS還有50%的供電能力;輸入斷兩相后電池仍不放電,UPS還有25%的供電能力,延長了電池的使用壽命。用戶就認(rèn)為這個性能好,稍動腦筋不難發(fā)現(xiàn)其弊?。喝粝胂硎芷鋬?yōu)點必須購買4倍于負(fù)載容量的UPS,否則斷一相后就帶不動當(dāng)前的負(fù)載了。話又說回來,如果UPS斷的是輸入開關(guān)后面的兩條線怎么辦?還修不修?何時修?是否完全斷電后才能修?等等這一系列問題如何解決。如果用戶真的按負(fù)載實際容量購買了這樣的UPS,這就是莫大的隱患,這是靠運(yùn)維解決不了的問題。

(2)不便說明的原因。比如有的用戶從上個世紀(jì)就開始使用某品牌的機(jī)器,當(dāng)時由于客觀原因盡管輸入功率因數(shù)低、效率低、體積大、耗電多和價格貴而無法也不便解決。現(xiàn)在比原來機(jī)型優(yōu)越的多的新機(jī)型早已問世,比如新型的高頻機(jī)結(jié)構(gòu)UPS每一百千瓦每年要比原來工頻機(jī)機(jī)結(jié)構(gòu)的UPS節(jié)約5萬度電,而這個幾兆瓦容量的機(jī)房每年就可節(jié)約幾百萬度電。但由于某種原因,硬是放著節(jié)能設(shè)備不選而仍將那種耗能的機(jī)器寫入標(biāo)書,這樣做還怕不保險,還把那種機(jī)器的結(jié)構(gòu)特點寫入標(biāo)書。這不但增加了空調(diào)設(shè)備的投資和占地面積,無疑也為今后的運(yùn)行埋下了隱患。這又是運(yùn)維中無法解決的問題。

(3)追求低價格。有的用戶認(rèn)為UPS都一樣,所以就追求低價格,結(jié)果導(dǎo)致故障。比如某高速公路指揮部貪圖便宜,第一天裝機(jī),第二天就起火;某人壽保險公司低價格購進(jìn)的機(jī)器,不到半年因UPS故障而燒毀幾乎所有IT設(shè)備的輸入電路,導(dǎo)致系統(tǒng)癱瘓;又如某多臺UPS并聯(lián)的兆瓦級數(shù)據(jù)中心,裝機(jī)沒有幾個月因其中一臺UPS中的一個逆變器功率管擊穿而導(dǎo)致所有UPS跳閘……

2、使用環(huán)境不當(dāng)故障導(dǎo)致的故障

不按說明書上對環(huán)境的要求放置機(jī)器,甚至有的將UPS放在隨便穿行的走廊、滴水的地下室。比如幾臺200kVA的UPS放在了屋頂只有一層預(yù)制板的平房,空調(diào)只是兩臺5P的舒適空調(diào)機(jī),又如一個玻璃廠竟將UPS放在粉末飛揚(yáng)的廠房內(nèi),等等。導(dǎo)致了頻繁故障。

3、制度不健全導(dǎo)致的故障

比如有的值班人員隨便將電爐子、電飯煲和吸塵器接在UPS上,導(dǎo)致過載跳閘;有的值班人員的食物引來老鼠鉆入機(jī)器而導(dǎo)致起火……

4、交接故障

這類故障主要是由于管理人員的前后不是一撥人或配合不好造成。比如某火車站售票系統(tǒng),前面值機(jī)人員由于移動機(jī)器位置而將UPS的外接電池組斷開,事后又未向后來者交代,結(jié)果造成了市電和UPS同時停電的故障……

5、經(jīng)驗故障

經(jīng)驗是不可缺少的,是不可多得的財富。但經(jīng)驗有其相對性,即在某種UPS上得到的經(jīng)驗不一定完全適合另一種UPS,否則就會導(dǎo)致故障。某電信局由于不看說明書而用同樣的方法啟動另一品牌機(jī)器導(dǎo)致逆變器燒毀。

6、失察故障

一些器件在運(yùn)行中會出現(xiàn)老化或早期失效,如不及時檢查發(fā)現(xiàn)就會導(dǎo)致故障。這些在自動監(jiān)控中是無法發(fā)現(xiàn)的。比如因老化而開始彎曲的保險絲,電池結(jié)構(gòu)螺絲的松動,電池長時間放電后使電池殼有微細(xì)的裂縫等,如不及時發(fā)現(xiàn)或發(fā)現(xiàn)后沒有及時處理都可造成故障。

7、倉促上陣導(dǎo)致的故障

搞維修保養(yǎng)來不得半點急躁,要考慮周全后再動手。某公司工程師要對一用戶正在運(yùn)行的UPS進(jìn)行檢修,按照規(guī)定要用維修旁路開關(guān)將UPS退出后再檢修,但按照程序需先啟動自動旁路,而后再閉合維修旁路的閘刀。也許該工程是還有其他急事要辦,進(jìn)機(jī)房后未經(jīng)考慮就閉合了維修旁路閘刀,結(jié)果造成逆變器功率管爆炸。

8、維護(hù)不當(dāng)導(dǎo)致的二次故障

對UPS的定期維護(hù)是必要的,但應(yīng)有一套嚴(yán)格的管理程序。那些不負(fù)責(zé)任、不按規(guī)定要求進(jìn)行定期或不定期保養(yǎng)是導(dǎo)致機(jī)器故障的重要原因。另外,在維護(hù)保養(yǎng)時也可導(dǎo)致故障,比如用萬用表探針測量電路板電位時,探針將兩點短路導(dǎo)致故障。一用戶作電池放電時,將電池從UPS上摘下,放電后將電池接回時機(jī)型解放,導(dǎo)致電流爆炸。又如一工程師在更換離心風(fēng)機(jī)時不小心活動扳手一打滑打在了控制板上,當(dāng)時沒有在意,風(fēng)機(jī)換好后不能開機(jī),檢查發(fā)現(xiàn)一條器件腿被打斷了……

9、靜電導(dǎo)致的故障

某機(jī)房按例停機(jī)保養(yǎng),但保養(yǎng)后卻無法開機(jī)。檢查后發(fā)現(xiàn)一個組件電壓擊穿,回憶維保過程發(fā)現(xiàn)該控制板用塑料牙刷掃過灰塵。塑料在干燥器件的表面可產(chǎn)生幾千伏的摩擦靜電電壓,由于機(jī)器內(nèi)小信號電路使用了一些MOS器件,這些器件耐壓很低而且最怕靜電。經(jīng)測量一個普通塑料袋,用電路板摩擦一下就可產(chǎn)生3000V的靜電電壓。所以在檢查這些電路板時最好手腕上要套一個接地環(huán)。

10、過分自信導(dǎo)致的故障

做事情自信是成功的基礎(chǔ),但過分自信有時就會出錯。比如某國際銀行在UPS運(yùn)行了8年后就應(yīng)該更新設(shè)備,廠家也多次提醒。由于該UPS8年來很少出問題,所以用戶負(fù)責(zé)人屢次回答“不用更新”,結(jié)果幾個月后該UPS因老化故障而停止供電兩小時,導(dǎo)致全球業(yè)務(wù)也中斷兩小時,損失很大。

根據(jù)國際上的統(tǒng)計資料,5年標(biāo)稱的電池服務(wù)壽命最多不超過3年。在平時不保養(yǎng)的情況下,一般2年就應(yīng)該更換。某飛機(jī)場候機(jī)廳電池原配4h,3年后仍不更換,一次外電網(wǎng)停電,UPS后備時間只剩4h,由于停電造成了損失……

像類似的人為故障現(xiàn)象還有很多,就不一一例舉了。

歸根到底,電源系統(tǒng)的選型是第一關(guān),這一道關(guān)把不住首先就種下了隱患的種子。電源系統(tǒng)的連接是第二關(guān),有了好的設(shè)備,如果沒有好的連接方案,也會埋下隱患。某電視臺由于連接方案被廠家誤導(dǎo)。十幾套節(jié)目的供電UPS故障接連不斷,而且大都是有驚無險,一連幾年都是這樣,使維保人員提心吊膽、傷透了腦筋。連接方案是一個工程,不是維保人員左右的了的。無奈只好在重大活動和節(jié)日令廠家工程師前來值班。這又有什么用呢?廠家的工程師到此也只能是給用戶心理上以安慰。該告警的時候照樣告警,只求上帝保佑不要停電!

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論