在互聯(lián)網(wǎng)行業(yè),運(yùn)維一直是一個(gè)被深深誤解的位置,以至于很多人認(rèn)為IT行業(yè)運(yùn)維的技術(shù)含量很低,其實(shí)并非如此。
從本質(zhì)上講,運(yùn)維其實(shí)就是你用自己的技術(shù)儲(chǔ)備知識(shí)的崗位,保證你管理的IT服務(wù)能夠正常運(yùn)行。
在商業(yè)上也是一樣。軟件工程師的任務(wù)是通過編寫代碼將軟件以圖形化的形式提供給用戶,而運(yùn)維工程師的任務(wù)是使軟件在計(jì)算機(jī)或系統(tǒng)上正常運(yùn)行。但是一旦軟件出現(xiàn)問題,大多數(shù)人想找的是軟件工程師,而不是運(yùn)維工程師。
就像我們蓋房子一樣。產(chǎn)品開發(fā)負(fù)責(zé)房子的規(guī)劃,設(shè)計(jì)師負(fù)責(zé)房子的外觀設(shè)計(jì),開發(fā)工程師負(fù)責(zé)建造房子,運(yùn)維負(fù)責(zé)打好房子的地基。而打好地基,并不意味著簡單地挖個(gè)坑。里面的技術(shù)含量很高。必須徹底研究坑的大小、深度、大小、濕度等。
房子蓋好后,大家只會(huì)關(guān)注房子蓋好后的風(fēng)格。很少有人會(huì)注意房子的地基,但是一旦房子倒塌,大家就會(huì)懷疑地基是否牢固,運(yùn)維這時(shí)候就出來了?;氐狡降族?。
很多人片面地認(rèn)為運(yùn)維沒有技術(shù)含量。這其實(shí)是一種錯(cuò)誤的認(rèn)識(shí)。因?yàn)檫\(yùn)維也是分很多層次的,就看你達(dá)到了哪個(gè)階段?;旧?,現(xiàn)在一個(gè)運(yùn)維除了掌握基本功,如果你還可以掌握云計(jì)算技術(shù)和一門編程語言(比如Python語言最適合運(yùn)維人員),那你就已經(jīng)是高人了級(jí)別,基本上是全棧開發(fā)運(yùn)維人員。這種運(yùn)維不用擔(dān)心找不到工作,工資自然比其他普通運(yùn)維高。
我自己在大公司和小公司都待過。我覺得主要是初級(jí)運(yùn)維太多了,他們做了很多根本不能叫運(yùn)維的事情??偨Y(jié)了以下幾點(diǎn):
1、運(yùn)維本身缺乏對(duì)拆分目標(biāo)的充分規(guī)劃和執(zhí)行,導(dǎo)致大量非技術(shù)性工作。
運(yùn)維必然會(huì)做基礎(chǔ)工作,比如部署服務(wù),上線,甚至搬機(jī)器,重裝系統(tǒng)等等。但是運(yùn)維不能只做這個(gè),所以如何在剩余的時(shí)間內(nèi)做有利于運(yùn)維技術(shù)提升的事情就顯得尤為重要。
舉個(gè)簡單的例子:當(dāng)你做研發(fā)的時(shí)候,你在其中處于什么位置,你如何體現(xiàn)你的價(jià)值和技術(shù)能力?如果沒有,你基本上是在幫助別人。
2、運(yùn)維責(zé)任點(diǎn)多,不能精通,沒有核心競爭力。
廣泛的范圍包括:硬件、網(wǎng)絡(luò)、操作系統(tǒng)、數(shù)據(jù)庫、存儲(chǔ)、開源軟件;職責(zé):部署和調(diào)試各種功能,如ldap、samba、nagios等;進(jìn)一步細(xì)化的分工還包括:壓力測(cè)試、性能優(yōu)化、內(nèi)核參數(shù)調(diào)優(yōu)、系統(tǒng)問題跟蹤等。
很多運(yùn)維要在不同層次上做太多的事情,導(dǎo)致很多事情只是完成任務(wù),缺乏深入研究,當(dāng)然也可能缺乏深入研究場(chǎng)景。
3、運(yùn)維本身的總結(jié)和介紹不夠,技術(shù)能力提升不夠。
其實(shí)和第一點(diǎn)關(guān)系比較大,因?yàn)槟繕?biāo)本身沒有足夠的規(guī)劃,總結(jié)性的介紹不夠,技術(shù)的提升也比較有限。
舉個(gè)真實(shí)的例子,我認(rèn)識(shí)一個(gè)做運(yùn)維7年多的人。這期間,他在幾家公司干了很多事,時(shí)間也不短。通常情況下,會(huì)有相當(dāng)多的積累。前段時(shí)間,我正要推薦他在內(nèi)部擊球時(shí),我查看了他的簡歷。我有幾個(gè)感受:整個(gè)簡歷都是描述性詞匯,沒有數(shù)據(jù)支持;項(xiàng)目工作全是敘述性描述,充滿服務(wù)搭建和問題解決,沒有技術(shù)點(diǎn);唯一的技術(shù)工作是一筆帶過,沒有方案選擇和技術(shù)能力體現(xiàn),技術(shù)水平無法體現(xiàn);
我自己也面試過很多人,說實(shí)話,這種簡歷離及格還差得很遠(yuǎn)。應(yīng)聘公司拿到這樣的簡歷,怎么能快速的了解到你就是公司需要的人?
如果我們不知道運(yùn)維的具體內(nèi)容,我們無權(quán)評(píng)價(jià)運(yùn)維的技術(shù)含量。一般來說,互聯(lián)網(wǎng)公司的運(yùn)維內(nèi)容分為兩個(gè)層次:
1、小公司的運(yùn)維工作比較簡單。
簡單的說,就是部署服務(wù)、維修電腦、安裝系統(tǒng)、安裝軟件、處理網(wǎng)絡(luò)問題等等,做各種家務(wù)活,甚至弄個(gè)路由器、剪網(wǎng)線。
2、大公司的運(yùn)維工作分工很明確。
網(wǎng)絡(luò)運(yùn)維,即網(wǎng)絡(luò)工程,必須精通各種網(wǎng)絡(luò)協(xié)議和架構(gòu),Cisco、華為、H3C路由和交換,至少兩項(xiàng);
數(shù)據(jù)庫運(yùn)維,數(shù)據(jù)庫運(yùn)維應(yīng)該理解為DBA,至少要精通,并且要精通數(shù)據(jù)庫;
操作系統(tǒng)運(yùn)維必須精通操作系統(tǒng),了解操作系統(tǒng)內(nèi)部工作原理,了解一些硬件知識(shí),了解網(wǎng)絡(luò)協(xié)議進(jìn)行故障排除;
還有很多其他的事情,比如服務(wù)器運(yùn)維,都需要覆蓋面廣,同時(shí)擁有多種技術(shù);
運(yùn)維技術(shù)差,可能只是因?yàn)楣拘。绻疽?guī)模小,大家看到的運(yùn)維工作只能是表面和基礎(chǔ)的工作,現(xiàn)在很多運(yùn)維崗位都被云服務(wù)取代了。運(yùn)維的內(nèi)容是在云平臺(tái)上運(yùn)行軟件。
事實(shí)上,有人認(rèn)為在平臺(tái)上操作軟件很簡單,但實(shí)際上,如果沒有計(jì)算機(jī)相關(guān)知識(shí)的積累,很難知道云平臺(tái)上的功能實(shí)現(xiàn)。在這方面,技術(shù)含量不低。
如果公司逐漸成長為大型公司,運(yùn)維的價(jià)值就會(huì)凸顯。比如云資源和離線資源的管理、數(shù)據(jù)庫管理、網(wǎng)絡(luò)管理、計(jì)算資源、網(wǎng)絡(luò)資源負(fù)載、調(diào)度處理,都需要豐富的計(jì)算機(jī)理論知識(shí)和實(shí)踐經(jīng)驗(yàn),否則無法提供穩(wěn)定、上層的可靠服務(wù)。
作為一家提供互聯(lián)網(wǎng)服務(wù)的公司,用戶能否穩(wěn)定可靠地使用互聯(lián)網(wǎng)服務(wù),是他們生活的基礎(chǔ)。想象一家公司每三天失敗一次并且服務(wù)不可用。雖然強(qiáng)調(diào)了運(yùn)維的存在,但大家還會(huì)相信你的產(chǎn)品嗎?
那么在BAT從事運(yùn)維的同學(xué)們都在做什么呢?幾個(gè)層次的簡要說明:
運(yùn)維功能:
首先,BAT在運(yùn)維上的分工更加細(xì)化。通常,系統(tǒng)、數(shù)據(jù)庫和應(yīng)用運(yùn)維是完全分離的。因此,它可能更側(cè)重于功能,當(dāng)然涉及的范圍肯定會(huì)很窄。
在工作職能方面,運(yùn)維主要圍繞可用性、效率提升和成本控制三個(gè)主要方面,與公司和研發(fā)目標(biāo)密切相關(guān)。運(yùn)維所做的大部分工作都是基于這三個(gè)目標(biāo)。拆卸。
在技術(shù)改進(jìn)方面,主要是以項(xiàng)目的形式,利用對(duì)服務(wù)的理解和技術(shù)方案來解決常見問題。
技術(shù)工作:
以服務(wù)可用性為例。這不僅僅是處理警報(bào)。操作時(shí)要小心。就像編寫一些自動(dòng)化工具一樣簡單。
在工作方式上:
嚴(yán)格按照既定計(jì)劃安排工作、審查、總結(jié)。分工的實(shí)施是否有明確的規(guī)則,什么時(shí)間維度準(zhǔn)確到季度?月?星期?天?我多久回顧一次?
結(jié)合這些方面,BAT運(yùn)維的同學(xué)才有可能實(shí)現(xiàn)快速的技術(shù)提升。這是我所看到的。
最后說一下運(yùn)維方向:
為了在運(yùn)維方面有一個(gè)光明的未來,需要幾個(gè)要素:
1、需要一個(gè)可以進(jìn)行運(yùn)維開發(fā)的平臺(tái)。
至少是已經(jīng)發(fā)展起來并具有一定機(jī)器規(guī)模的業(yè)務(wù)。沒有必要在這里擊球,但選擇適合您的。
2.了解并熟悉業(yè)務(wù)。
很多人不喜歡處理問題,然后只想著做高大上的事情。我不想告訴你這個(gè)結(jié)果,但它沒有接地,他們制作的東西沒有使用,等等。
所以我覺得運(yùn)維架構(gòu)師一定是一個(gè)懂業(yè)務(wù)、熟悉業(yè)務(wù)、非常熟悉的人。我身邊也遇到過這樣的人。他們級(jí)別很高,通常不處理任何問題,但在關(guān)鍵時(shí)刻(例如出現(xiàn)問題時(shí)),他可以快速找到關(guān)鍵點(diǎn)并解決它們,有些細(xì)節(jié)甚至比您還要多。明白了,不得不佩服。運(yùn)維一定是這樣的人!
3、對(duì)運(yùn)維技術(shù)和業(yè)務(wù)架構(gòu)的發(fā)現(xiàn)和思考。
就算每天重復(fù)上線、處理故障問題、響應(yīng)需求、開發(fā)維護(hù)腳本,也無所謂。關(guān)鍵是你有沒有從你做過的問題中看到業(yè)務(wù)和運(yùn)維中的痛點(diǎn),并使用現(xiàn)有的。技術(shù)方案,處理解決!
4、綜合考慮問題,從全局角度解決共性問題。
有很多問題,并不是說解決了很多問題就是一個(gè)偉大的人。問題的關(guān)鍵在于如何解決問題,同時(shí)體現(xiàn)你的整體視角和技術(shù)能力。
舉個(gè)最簡單的例子,一臺(tái)機(jī)器的磁盤快滿了。這一定是一個(gè)特別小的問題。運(yùn)維同學(xué)應(yīng)該經(jīng)常遇到。
如果你只檢查磁盤使用情況,然后刪除數(shù)據(jù)或調(diào)整刪除磁盤的腳本,那是最糟糕的文件;檢查磁盤使用情況,確認(rèn)是單機(jī)還是批處理機(jī)有問題,為什么此時(shí)報(bào)告,確認(rèn)清楚可以解決,這是一個(gè)更高的層次;我查看了磁盤占用,徹底發(fā)現(xiàn)了磁盤增長的原因,但發(fā)現(xiàn)磁盤增長是不可控的,現(xiàn)有的數(shù)據(jù)刪除方法無法避免報(bào)警。那么有沒有辦法保證重要數(shù)據(jù)正常保留時(shí)磁盤不會(huì)報(bào)警呢?然后用技術(shù)方案解決,這是更高的層次。.....有很多這樣的例子。
你會(huì)發(fā)現(xiàn)運(yùn)維其實(shí)就是利用你對(duì)系統(tǒng)、網(wǎng)絡(luò)、硬件、規(guī)格、服務(wù)的熟悉,結(jié)合專業(yè)知識(shí),用技術(shù)方案解決一系列研發(fā)測(cè)試無法解決或無法解決的常見問題。單獨(dú)解決。并且可以形成工具、平臺(tái)、框架,最終為運(yùn)維部門甚至公司創(chuàng)造價(jià)值。這是一個(gè)很棒的操作和維護(hù)。
所以還是同一句話:沒有技術(shù)含量低的崗位,全看你怎么做。
隨著時(shí)代的發(fā)展,我們現(xiàn)在使用的任何技術(shù),很多事情都可以通過云計(jì)算解決,也有相應(yīng)的產(chǎn)品和方案來解決,云計(jì)算也對(duì)運(yùn)維產(chǎn)生了一定的影響。新的發(fā)展趨勢(shì)由此而來。
第一個(gè)是從IOE到開源X86。其實(shí)去IOE也有一段時(shí)間了,為什么要去IOE?2008年,全網(wǎng)印象比較深刻。當(dāng)時(shí),安全已逐漸上升到國家層面。此外,中國本土環(huán)境也日新月異。國產(chǎn)化需求和自主研發(fā)能力越來越強(qiáng)。一個(gè)強(qiáng)大的內(nèi)部基因被定位。此外,還考慮到無論是國家層面還是企業(yè)層面,各行業(yè)都希望靈活控制結(jié)構(gòu)的能力。這也是這個(gè)行業(yè)本地化的需求,這也是去IOE的第二個(gè)理由。從長遠(yuǎn)來看,IOE架構(gòu)和非IOE架構(gòu)會(huì)長期共存,因?yàn)榧夹g(shù)系統(tǒng)的升級(jí)不是一兩天就能解決的,尤其是一些核心數(shù)據(jù)庫、核心應(yīng)用、核心系統(tǒng)的核心系統(tǒng)。當(dāng)年經(jīng)常部署在IOE框架下。
第二個(gè)是運(yùn)維自動(dòng)化和智能化。這個(gè)已經(jīng)提了好幾年了,從接觸實(shí)踐到現(xiàn)在大概有五六年了,現(xiàn)在還在提。事實(shí)上,很多行業(yè)一直在迭代優(yōu)化運(yùn)維的自動(dòng)化和智能化。它確實(shí)可以為我們的運(yùn)維帶來很多優(yōu)勢(shì)和優(yōu)勢(shì)。
第三個(gè)是雙態(tài)IT運(yùn)維。在傳統(tǒng)向互聯(lián)網(wǎng)和移動(dòng)轉(zhuǎn)型的過程中,一方面為了保證現(xiàn)有業(yè)務(wù)的運(yùn)營,另一方面為了適應(yīng)這種新的IT技術(shù)的變化。
第四個(gè)是研發(fā)與運(yùn)營的融合,即DevOps。DevOps在過去的兩三年里已經(jīng)滲透到了千家萬戶。其核心理念包括精益管理、敏捷等理論,通過持續(xù)交付、持續(xù)集成工具鏈,以及一些輕量級(jí)的IT服務(wù)管理?;谶@些概念和工具,形成了從研發(fā)到運(yùn)營的全流程體系。IT運(yùn)維效率更高,迭代更快,反饋更快,更好地滿足內(nèi)部業(yè)務(wù)需求和用戶需求。這也是研發(fā)運(yùn)營一體化理念的價(jià)值所在。
第五個(gè)是整合云資源,提供一個(gè)更大的平臺(tái)來支撐大數(shù)據(jù)、AI智能、運(yùn)維等一切各行各業(yè)這也是互聯(lián)場(chǎng)景的一大趨勢(shì)。這對(duì)運(yùn)維來說既是挑戰(zhàn),也是機(jī)遇。為什么?因?yàn)檫@個(gè)行業(yè)在不斷變化,技術(shù)也在不斷變化,只要順應(yīng)大勢(shì)而變,我們就站在時(shí)代的潮流中。
如果我們?cè)谥暗倪\(yùn)維理念上還是保守的,不上云,不摸云,那你肯定被淘汰了,因?yàn)槲沂昵昂茈y部署一個(gè)數(shù)據(jù)庫,各種配置,各種調(diào)用,現(xiàn)在就可以直接打開一個(gè)RDS,進(jìn)行優(yōu)化,集群就完成了。在效率和穩(wěn)定性上,分分鐘達(dá)到我們傳統(tǒng)的運(yùn)維水平,這也是我們運(yùn)維要面對(duì)的大勢(shì)所趨。
基于此,云原生的概念在過去一兩年比較流行。事實(shí)上,它是對(duì)現(xiàn)有云架構(gòu)系統(tǒng)技術(shù)棧進(jìn)行更深更廣的整合,采用Devops、微服務(wù)、敏捷的概念,采用類似中國大陸和臺(tái)灣的概念或者開放的概念來構(gòu)建和重塑技術(shù)體系,更好地支持新業(yè)務(wù)的快速迭代開發(fā),這其實(shí)和DevOps的概念有很多相似之處。
第六個(gè)是數(shù)字化。這也是近兩年在中國的熱門話題。事實(shí)上,它也是。我們?cè)?jīng)建設(shè)過各種各樣的信息化,建設(shè)了很多系統(tǒng)和平臺(tái),但往往也搭建了很多障礙,導(dǎo)致我們很多信息系統(tǒng)不可用,業(yè)務(wù)碎片化。組織也支離破碎。數(shù)字化要解決的問題是通過底層的數(shù)據(jù)和算法構(gòu)建新的服務(wù),打通我們的業(yè)務(wù)。這就是數(shù)字化要解決的問題。
大體上講了這么多趨勢(shì),當(dāng)然也有一些,大體是一樣的。以前是用硬件,現(xiàn)在是軟件自動(dòng)定義;過去用服務(wù)器,現(xiàn)在用云,我們現(xiàn)在用云,未來可能更混合。云端,云端整合;以前是技術(shù)運(yùn)維,現(xiàn)在從事技術(shù)運(yùn)維的整合;另外,同樣重要的是,無論我們現(xiàn)在做什么,網(wǎng)絡(luò)空間安全現(xiàn)在都提升到了國家層面,在企業(yè)里面也提供了企業(yè)的最高點(diǎn),這個(gè)網(wǎng)絡(luò)安全是IT的一個(gè)標(biāo)準(zhǔn)。