什么是運維?下面和千鋒廣州小編一起來看看吧!
運維顧名思義就是運行維護,運維工程師就是要做好生產(chǎn)系統(tǒng)的穩(wěn)定運行維護工作。是不是很好理解?但是光這一句穩(wěn)定運行,需要運維工程師們具備各方面的能力,以至于一人無法完成全部維護工作,從而形成了各類運維工程師的分工協(xié)作,比如應用運維、系統(tǒng)運維、網(wǎng)絡運維等。最近很火的devpos概念,可能有人已經(jīng)有所了解了,現(xiàn)在說的devpos工程師就是開發(fā)與運維的結合,提出運維需要開發(fā)技能。個人認為有些扯淡,運維本來就要會些開發(fā)技能的,但是運維和開發(fā)還是有本質區(qū)別的,其思考方式就不一樣,開發(fā)人員考慮的是系統(tǒng)實現(xiàn)功能馬上投產(chǎn),運維工程師關心的是系統(tǒng)好不好用,是不是具備高性能,高可用?怎樣去保證每天長治久安的安全穩(wěn)定運行?所以個人以為運維就是運維,運維本身也需要開發(fā)技能,但是從總體上說還是運維工程師,我們會的比開發(fā)工程師還要多,開發(fā)只是我們工作的很小一部分。
那么運維工程師主要做哪些工作呢?既然工作目標是保證系統(tǒng)的安全穩(wěn)定運行,那么我們的工作就是圍繞著這個目標轉。我們需要:
1、構建系統(tǒng)監(jiān)控體系。沒有監(jiān)控就等于是瞎子,系統(tǒng)出了問題都不知道,要是哪天支付寶不能支付了,支付寶的運維工程師肯定是第一時間知道的,總不見得等用戶投訴,媒體報道了自己才知道吧?關于監(jiān)控體系我之前已經(jīng)說過了。
2、應急處理。系統(tǒng)出故障了怎么辦?著急的看著束手無策肯定不行,這時一個優(yōu)秀的運維工程師的價值就體現(xiàn)出來了,一個有經(jīng)驗的運維工程師能第一時間確定故障原因,并迅速恢復業(yè)務,保證對外影響時間最小。當然,這里故障是多方面的,有應用故障,數(shù)據(jù)庫故障,甚至是網(wǎng)絡線路故障,后面會單獨一篇進行介紹。
3、技術問題分析。出了問題就需要分析,這里需要具備一些必備能力,比如網(wǎng)絡抓包分析、tcpdump抓包及分析、代理的機制等。
4、業(yè)務問題處理。就是在業(yè)務層面進行統(tǒng)計分析,比如統(tǒng)計系統(tǒng)的每日交易量,成功率,錯誤碼的分布情況,這對這些錯誤碼分析原因,找出集中在哪個環(huán)節(jié),集中在哪家商戶,找到他,然后沖過去幫商戶解決問題。
5、版本測試。開發(fā)發(fā)布版本后運維工程師需要進行相應的性能和高可用測試,不具備高可用的系統(tǒng)建議還是不要上線了,否則后果不堪設想。
6、版本上線。這個就需要體能儲備了,在晚間業(yè)務量小的時候悄悄的進行,要讓用戶無感知,熬個夜完成系統(tǒng)的升級改造,第二天給廣大用戶一個驚喜,有沒有發(fā)現(xiàn)有時候一夜之間支付寶,京東啥的換了個頁面,出了啥新功能啥的?
7、系統(tǒng)演練。養(yǎng)兵千日用兵一時,平時不努力,故障時吃苦頭。所以平時自己要安排些實際故障的演練,驗證下系統(tǒng)的強制性,再考驗下一線工程師的應變能力。
8、工具開發(fā)。運維沒有工具怎么行?包括監(jiān)控工具、交易成功率統(tǒng)計分析工具、變更自動化工具等等。
9、業(yè)務分析。這個你需要具備一項新技能:“統(tǒng)計分析”。各種統(tǒng)計分析工具,數(shù)學建模是必須要掌握的內容。