優(yōu)秀的開(kāi)發(fā)者比比皆是,但是優(yōu)秀的運(yùn)維人員是少之又少。
運(yùn)維是一門(mén)既好入門(mén)但也是非常復(fù)雜的行業(yè),不像學(xué)會(huì)兩三門(mén)語(yǔ)言,設(shè)計(jì)幾個(gè)網(wǎng)站應(yīng)用就可以成為架構(gòu)師那樣的工作。他除了技術(shù)之外,經(jīng)驗(yàn)積累、視野、大局觀、甚至是心胸都有可能決定成敗。
運(yùn)維的內(nèi)容太復(fù)雜了!而運(yùn)維最本質(zhì)的東西是“可控,為什么說(shuō)運(yùn)維的本質(zhì)是“可控”,大概有以下幾個(gè)原因:
第一點(diǎn):穩(wěn)定性“可控”
運(yùn)維不是維護(hù)一兩臺(tái)機(jī)器,發(fā)布代碼就好,而是要做成千上萬(wàn),甚至十幾萬(wàn)臺(tái)的服務(wù)器和各種網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備等專有設(shè)備維護(hù),這些服務(wù)器包含webserver,DB,cache,cdn,computing多種類型,如何讓這些大量的服務(wù)器穩(wěn)定的跑在生產(chǎn)環(huán)境中,不因?yàn)橛布p壞、發(fā)布變更、系統(tǒng)升級(jí)而引發(fā)的業(yè)務(wù)系統(tǒng)故障。沒(méi)有東西是不會(huì)壞的,沒(méi)有系統(tǒng)是沒(méi)有bug的。硬件要壞,系統(tǒng)升級(jí),發(fā)布變更,這些都沒(méi)有關(guān)系,但是最重要的,一旦發(fā)生這些之后,運(yùn)維人員知道,這會(huì)業(yè)務(wù)影響多大!?需要多少時(shí)間和工作量恢復(fù)?
第二點(diǎn):性能“可控”
我和DBA一起維護(hù)DB多年,DBA最痛苦的地方,不在于“慢”,而在于時(shí)快時(shí)慢。一個(gè)不穩(wěn)定的性能,就無(wú)法預(yù)估承受業(yè)務(wù)壓力需要的系統(tǒng)規(guī)模,這樣對(duì)于DBA在維護(hù)是無(wú)異于自殺。很多云計(jì)算廠商做設(shè)計(jì)的時(shí)候,往往也會(huì)忽略這一點(diǎn),其實(shí)性能的問(wèn)題,比最高性能,來(lái)的重要的多!非常漂亮的數(shù)字不能解決問(wèn)題,但是一次性能的不足,可能就引發(fā)故障。
第三點(diǎn):安全“可控”
有沒(méi)有絕對(duì)的安全呢?理論上沒(méi)有,所以,運(yùn)維的同學(xué),總要花很多精力在系統(tǒng)安全上,比如控制哪些用戶可以登錄系統(tǒng)環(huán)境?哪些用戶是可以進(jìn)行變更?哪些用戶甚至可以拿到最高權(quán)限?測(cè)試和開(kāi)發(fā)隔離,公司內(nèi)外隔離,都是因此而生。只要能夠控制權(quán)限的面積,范圍,就能知道風(fēng)險(xiǎn),這邊是所謂的安全“可控”。
重要如上所示,但是正如一開(kāi)頭所說(shuō),運(yùn)維的內(nèi)容相當(dāng)復(fù)雜,交付“可控”,變更內(nèi)容“可控”,效率“可控”都是可以值得深究的東西,因此,無(wú)論是“可視化”,“大數(shù)據(jù)”,“運(yùn)維自動(dòng)化”等等,都是在為“運(yùn)維可控”服務(wù)的。數(shù)據(jù)可視化,帶來(lái)的是規(guī)??煽?運(yùn)維自動(dòng)化,帶來(lái)的是效率可控,風(fēng)險(xiǎn)可控,如是而已。
每一個(gè)點(diǎn)的提升,都是運(yùn)維的提升,希望所有從事運(yùn)維的同學(xué),都能感受到,做什么可以讓“可控力”提升,不要再半夜的時(shí)候處理故障,不要和女朋友看電影的時(shí)候回公司處理故障,也許我們?cè)俅斡龅竭@些問(wèn)題的時(shí)候,可以拿起一杯茶,做一個(gè)優(yōu)雅的運(yùn)維。