弱電工程IT運(yùn)維工作內(nèi)容

cnsue001
運(yùn)維人員對(duì)公司互聯(lián)網(wǎng)業(yè)務(wù)所依賴(lài)的基礎(chǔ)設(shè)施、基礎(chǔ)服務(wù)、線(xiàn)上業(yè)務(wù)進(jìn)行穩(wěn)定性加強(qiáng),進(jìn)行日常巡檢發(fā)現(xiàn)服務(wù)可能存在的隱患,對(duì)整體架構(gòu)進(jìn)行優(yōu)化以屏蔽常見(jiàn)的運(yùn)行故障,多數(shù)據(jù)中接入提高業(yè)務(wù)的容災(zāi)能力。

互聯(lián)網(wǎng)運(yùn)維工作,以服務(wù)為中心,以穩(wěn)定、安全、高效為三個(gè)基本點(diǎn),確保公司的互聯(lián)網(wǎng)業(yè)務(wù)能夠7×24小時(shí)為用戶(hù)提供高質(zhì)量的服務(wù)。

運(yùn)維人員對(duì)公司互聯(lián)網(wǎng)業(yè)務(wù)所依賴(lài)的基礎(chǔ)設(shè)施、基礎(chǔ)服務(wù)、線(xiàn)上業(yè)務(wù)進(jìn)行穩(wěn)定性加強(qiáng),進(jìn)行日常巡檢發(fā)現(xiàn)服務(wù)可能存在的隱患,對(duì)整體架構(gòu)進(jìn)行優(yōu)化以屏蔽常見(jiàn)的運(yùn)行故障,多數(shù)據(jù)中接入提高業(yè)務(wù)的容災(zāi)能力。

通過(guò)監(jiān)控、日志分析等技術(shù)手段,及時(shí)發(fā)現(xiàn)和響應(yīng)服務(wù)故障,減少服務(wù)中斷的時(shí)間,使公司的互聯(lián)網(wǎng)業(yè)務(wù)符合預(yù)期的可用性要求,持續(xù)穩(wěn)定地為用戶(hù)提供務(wù)。

在安全方面,運(yùn)維人員需要關(guān)注業(yè)務(wù)運(yùn)行所涉及的各個(gè)層面,確保用戶(hù)能夠安全、完整地訪(fǎng)問(wèn)在線(xiàn)業(yè)務(wù)。

從網(wǎng)絡(luò)邊界劃分、ACL管理、流量分析、DDoS防御,到操作系統(tǒng)、開(kāi)源軟件的漏洞掃描和修補(bǔ),再到應(yīng)用服務(wù)的XSS、SQL注入防護(hù);

從安全流程梳、代碼白盒黑盒掃描、權(quán)限審計(jì),到入侵行為檢測(cè)、業(yè)務(wù)風(fēng)險(xiǎn)控制等。

運(yùn)維人員需要保障公司提供的互聯(lián)網(wǎng)業(yè)運(yùn)行在安全、可控的狀態(tài)下,確保公司業(yè)務(wù)數(shù)據(jù)和用戶(hù)隱私數(shù)據(jù)的安全,同時(shí)還需要具備抵御各種惡意攻擊的能力。

在確保業(yè)務(wù)穩(wěn)定、安全的前提下,還需保障業(yè)務(wù)高效的運(yùn)轉(zhuǎn),公司內(nèi)快速的產(chǎn)出。運(yùn)維工作需要對(duì)業(yè)務(wù)進(jìn)行各方面優(yōu)化。

比如,IO優(yōu)化提升數(shù)據(jù)庫(kù)性能,圖片壓縮降低帶寬使用量等,提供的互聯(lián)網(wǎng)業(yè)務(wù)以較小的資源投入帶來(lái)最大的用戶(hù)價(jià)值和體驗(yàn)。

同時(shí),還需要通過(guò)各種工具平臺(tái)提升內(nèi)部產(chǎn)品發(fā)布交付的效率,提升公司內(nèi)運(yùn)維相關(guān)的工作效率。

工作分類(lèi)運(yùn)維

運(yùn)維的工作方向比較多,隨著業(yè)務(wù)規(guī)模的不斷發(fā)展,越成熟的互聯(lián)網(wǎng)公司,運(yùn)維崗位會(huì)劃分得越細(xì)。

當(dāng)前很多大型的互聯(lián)網(wǎng)公司,在初創(chuàng)時(shí)期只有系統(tǒng)運(yùn)維,隨著服務(wù)規(guī)模、服務(wù)質(zhì)量的要求,也逐漸進(jìn)行了工作細(xì)分。

一般情況下運(yùn)維團(tuán)隊(duì)的工作分類(lèi)和職責(zé)如下。

系統(tǒng)運(yùn)維

系統(tǒng)運(yùn)維負(fù)責(zé)IDC、網(wǎng)絡(luò)、CDN和基礎(chǔ)服務(wù)的建設(shè)(LVS、NTP、DNS);負(fù)責(zé)資產(chǎn)管理,服務(wù)器選型、交付和維修。詳細(xì)的工作職責(zé)如下。

1.IDC數(shù)據(jù)中心建設(shè)

收集業(yè)務(wù)需求,預(yù)估未來(lái)數(shù)據(jù)中心的發(fā)展規(guī)模,從骨干網(wǎng)的分布,數(shù)據(jù)中心建筑,以及Internet接入、網(wǎng)絡(luò)攻擊防御能力、擴(kuò)容能力、空間預(yù)留、外接專(zhuān)線(xiàn)能力、現(xiàn)場(chǎng)服務(wù)支撐能力等方面評(píng)估選型數(shù)據(jù)中心。負(fù)責(zé)數(shù)據(jù)中心的建設(shè)、現(xiàn)場(chǎng)維護(hù)工作。

2.網(wǎng)絡(luò)建設(shè)

設(shè)計(jì)及規(guī)劃生產(chǎn)網(wǎng)絡(luò)架構(gòu),這里面包括:數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)、傳輸網(wǎng)架構(gòu)、CDN網(wǎng)絡(luò)架構(gòu)等,以及網(wǎng)絡(luò)調(diào)優(yōu)等日常運(yùn)維工作。

3.LVS負(fù)載均衡和SNAT建設(shè)

LVS是整個(gè)站點(diǎn)架構(gòu)中的流量入口,根據(jù)網(wǎng)絡(luò)規(guī)模和業(yè)務(wù)需求,構(gòu)建負(fù)載均衡集群。完成網(wǎng)絡(luò)與業(yè)務(wù)服務(wù)器的銜接,提供高性能、高可用的負(fù)載調(diào)度能力,以及統(tǒng)一的網(wǎng)絡(luò)層防攻擊能力。SNAT.集中提供數(shù)據(jù)中心的公網(wǎng)訪(fǎng)問(wèn)服務(wù),通過(guò)集群化部署,保證出網(wǎng)服務(wù)的高性能與高可用。

4.CDN規(guī)劃和建設(shè)

CDN工作劃分為第三方和自建兩部分。建立第三方CDN的選型和調(diào)度控制;根據(jù)業(yè)務(wù)發(fā)展趨勢(shì),規(guī)劃CDN新節(jié)點(diǎn)建設(shè)布局;完善CDN業(yè)務(wù)及監(jiān)控,保障CDN系統(tǒng)穩(wěn)定、高效運(yùn)行。分析業(yè)務(wù)加速頻道的文件特性和數(shù)量,制定最優(yōu)的加速策略和資源匹配;負(fù)責(zé)用戶(hù)劫持等CDN日常故障排查工作。

5.服務(wù)器選型、交付和維護(hù)

負(fù)責(zé)服務(wù)器的測(cè)試選型,包含服務(wù)器整機(jī)、部件的基礎(chǔ)性測(cè)試和業(yè)務(wù)測(cè)試,降低整機(jī)功率,提升機(jī)架部署密度等。

結(jié)合對(duì)公司業(yè)務(wù)的了解,推廣新硬件、新方案減少業(yè)務(wù)的服務(wù)器投入規(guī)模。負(fù)責(zé)服務(wù)器硬件故障的診斷定位,服務(wù)器硬件監(jiān)控、健康檢查工具的開(kāi)發(fā)和維護(hù)。

6.OS、內(nèi)核選型和OS相關(guān)維護(hù)工作

負(fù)責(zé)整體平臺(tái)的OS選型、定制和內(nèi)核優(yōu)化,以及Patch的更新和內(nèi)部版本發(fā)布;建立基礎(chǔ)的YUM包管理和分發(fā)中心,提供常用包版本庫(kù);跟進(jìn)日常各類(lèi)OS相關(guān)故障;針對(duì)不同的業(yè)務(wù)類(lèi)型,提供定向的優(yōu)化支持。

7.資產(chǎn)管理

記錄和管理運(yùn)維相關(guān)的基礎(chǔ)物理信息,包括數(shù)據(jù)中心、網(wǎng)絡(luò)、機(jī)柜、服務(wù)器、ACL、IP等各種資源信息,制定有效的流程,確保信息的準(zhǔn)確性;開(kāi)放API接口,為自動(dòng)化運(yùn)維提供數(shù)據(jù)支持。

8.基礎(chǔ)服務(wù)建設(shè)

業(yè)務(wù)對(duì)DNS、NTP、SYSLOG等基礎(chǔ)服務(wù)的依賴(lài)非常高,需要設(shè)計(jì)高可用架構(gòu)避免單點(diǎn),提供穩(wěn)定的基礎(chǔ)服務(wù)。

應(yīng)用運(yùn)維

應(yīng)用運(yùn)維負(fù)責(zé)線(xiàn)上服務(wù)的變更、服務(wù)狀態(tài)監(jiān)控、服務(wù)容災(zāi)和數(shù)據(jù)備份等工作,對(duì)服務(wù)進(jìn)行例行排查、故障應(yīng)急處理等工作。詳細(xì)的工作職責(zé)如下所述。

1.設(shè)計(jì)評(píng)審

在產(chǎn)品研發(fā)階段,參與產(chǎn)品設(shè)計(jì)評(píng)審,從運(yùn)維的角度提出評(píng)審意見(jiàn),使服務(wù)滿(mǎn)足運(yùn)維準(zhǔn)入的高可用要求。

2.服務(wù)管理

負(fù)責(zé)制定線(xiàn)上業(yè)務(wù)升級(jí)變更及回滾方案,并進(jìn)行變更實(shí)施。掌握所負(fù)責(zé)的服務(wù)及服務(wù)間關(guān)聯(lián)關(guān)系、服務(wù)依賴(lài)的各種資源。能夠發(fā)現(xiàn)服務(wù)上的缺陷,及時(shí)通報(bào)并推進(jìn)解決。制定服務(wù)穩(wěn)定性指標(biāo)及準(zhǔn)入標(biāo)準(zhǔn),同時(shí)不斷完善和優(yōu)化程序和系統(tǒng)的功能、效率,提高運(yùn)行質(zhì)量。完善監(jiān)控內(nèi)容,提高報(bào)警準(zhǔn)確度。在線(xiàn)上服務(wù)出現(xiàn)故障時(shí),第一時(shí)間響應(yīng),對(duì)已知線(xiàn)上故障能按流程進(jìn)行通報(bào)并按預(yù)案執(zhí)行,未知故障組織相關(guān)人員聯(lián)合排障。

3.資源管理

對(duì)各服務(wù)的服務(wù)器資產(chǎn)進(jìn)行管理,梳理服務(wù)器資源狀況、數(shù)據(jù)中心分布情況、網(wǎng)絡(luò)專(zhuān)線(xiàn)及帶寬情況,能夠合理使用服務(wù)器資源,根據(jù)不同服務(wù)的需求,分配不同配置的服務(wù)器,確保服務(wù)器資源的充分利用。

4.例行檢查

制定服務(wù)例行排查點(diǎn),并不斷完善。根據(jù)制定的服務(wù)排查點(diǎn),對(duì)服務(wù)進(jìn)行定期檢查。對(duì)排查過(guò)程中發(fā)現(xiàn)的問(wèn)題,及時(shí)進(jìn)行追查,排除可能存在的隱患。

5.預(yù)案管理

確定服務(wù)所需的各項(xiàng)監(jiān)控、系統(tǒng)指標(biāo)的閾值或臨界點(diǎn),以及出現(xiàn)該情況后的處理預(yù)案。建立和更新服務(wù)預(yù)案文檔,并根據(jù)日常故障情況不斷補(bǔ)充完善,提高預(yù)案完備性。能夠制定和評(píng)審各類(lèi)預(yù)案,周期性進(jìn)行預(yù)案演練,確保預(yù)案的可執(zhí)行性。

6.數(shù)據(jù)備份

制定數(shù)據(jù)備份策略,按規(guī)范進(jìn)行數(shù)據(jù)備份工作。保證數(shù)據(jù)備份的可用性和完整性,定期開(kāi)展數(shù)據(jù)恢復(fù)性測(cè)試。

數(shù)據(jù)庫(kù)運(yùn)維

數(shù)據(jù)庫(kù)運(yùn)維負(fù)責(zé)數(shù)據(jù)存儲(chǔ)方案設(shè)計(jì)、數(shù)據(jù)庫(kù)表設(shè)計(jì)、索引設(shè)計(jì)和SQL優(yōu)化,對(duì)數(shù)據(jù)庫(kù)進(jìn)行變更、監(jiān)控、備份、高可用設(shè)計(jì)等工作。詳細(xì)的工作職責(zé)如下所述。

1.設(shè)計(jì)評(píng)審

在產(chǎn)品研發(fā)初始階段,參與設(shè)計(jì)方案評(píng)審,從DBA的角度提出數(shù)據(jù)存儲(chǔ)方案、庫(kù)表設(shè)計(jì)方案、SQL開(kāi)發(fā)標(biāo)準(zhǔn)、索引設(shè)計(jì)方案等,使服務(wù)滿(mǎn)足數(shù)據(jù)庫(kù)使用的高可用、高性能要求。

2.容量規(guī)劃

掌握所負(fù)責(zé)服務(wù)的數(shù)據(jù)庫(kù)的容量上限,清楚地了解當(dāng)前瓶頸點(diǎn),當(dāng)服務(wù)還未到達(dá)容量上限時(shí),及時(shí)進(jìn)行優(yōu)化、分拆或者擴(kuò)容。

3.數(shù)據(jù)備份與災(zāi)備

制定數(shù)據(jù)備份與災(zāi)備策略,定期完成數(shù)據(jù)恢復(fù)性測(cè)試,保證數(shù)據(jù)備份的可用性和完整性。

4.數(shù)據(jù)庫(kù)監(jiān)控

完善數(shù)據(jù)庫(kù)存活和性能監(jiān)控,及時(shí)了解數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)及故障。數(shù)據(jù)庫(kù)安全建設(shè)數(shù)據(jù)庫(kù)賬號(hào)體系,嚴(yán)格控制賬號(hào)權(quán)限與開(kāi)放范圍,降低誤操作和數(shù)據(jù)泄露的風(fēng)險(xiǎn);加強(qiáng)離線(xiàn)備份數(shù)據(jù)的管理,降低數(shù)據(jù)泄露的風(fēng)險(xiǎn)。

5.數(shù)據(jù)庫(kù)高可用和性能優(yōu)化

對(duì)數(shù)據(jù)庫(kù)單點(diǎn)風(fēng)險(xiǎn)和故障設(shè)計(jì)相應(yīng)的切換方案,降低故障對(duì)數(shù)據(jù)庫(kù)服務(wù)的影響;不斷對(duì)數(shù)據(jù)庫(kù)整體性能進(jìn)行優(yōu)化,包括新存儲(chǔ)方案引進(jìn)、硬件優(yōu)化、文件系統(tǒng)優(yōu)化、數(shù)據(jù)庫(kù)優(yōu)化、SQL優(yōu)化等,在保障成本不增加或者少量增加的情況下,數(shù)據(jù)庫(kù)可以支撐更多的業(yè)務(wù)請(qǐng)求。

6.自動(dòng)化系統(tǒng)建設(shè)

設(shè)計(jì)開(kāi)發(fā)數(shù)據(jù)庫(kù)自動(dòng)化運(yùn)維系統(tǒng),包括數(shù)據(jù)庫(kù)部署、自動(dòng)擴(kuò)容、分庫(kù)分表、權(quán)限管理、備份恢復(fù)、SQL審核和上線(xiàn)、故障切換等功能。

7.運(yùn)維研發(fā)

運(yùn)維研發(fā)負(fù)責(zé)通用的運(yùn)維平臺(tái)設(shè)計(jì)和研發(fā)工作,如:資產(chǎn)管理、監(jiān)控系統(tǒng)、運(yùn)維平臺(tái)、數(shù)據(jù)權(quán)限管理系統(tǒng)等。提供各種API供運(yùn)維或研發(fā)人員使用,封裝更高層的自動(dòng)化運(yùn)維系統(tǒng)。詳細(xì)的工作職責(zé)如下所述。

8.運(yùn)維平臺(tái)

記錄和管理服務(wù)及其關(guān)聯(lián)關(guān)系,協(xié)助運(yùn)維人員自動(dòng)化、流程化地完成日常運(yùn)維操作,包括機(jī)器管理、重啟、改名、初始化、域名管理、流量切換和故障預(yù)案實(shí)施等。

9.監(jiān)控系統(tǒng)

負(fù)責(zé)監(jiān)控系統(tǒng)的設(shè)計(jì)、開(kāi)發(fā)工作,完成公司服務(wù)器和各種網(wǎng)絡(luò)設(shè)備的資源指標(biāo)、線(xiàn)上業(yè)務(wù)運(yùn)行指標(biāo)的收集、告警、存儲(chǔ)、分析、展示和數(shù)據(jù)挖掘等工作,持續(xù)提高告警的及時(shí)性、準(zhǔn)確性和智能性,促進(jìn)公司服務(wù)器資源的合理化調(diào)配。

10.自動(dòng)化部署系統(tǒng)

參與部署自動(dòng)化系統(tǒng)的開(kāi)發(fā),負(fù)責(zé)自動(dòng)化部署系統(tǒng)所需要的基礎(chǔ)數(shù)據(jù)和信息,負(fù)責(zé)權(quán)限管理、API開(kāi)發(fā)、Web端開(kāi)發(fā)。結(jié)合云計(jì)算,研發(fā)和提供PaaS相關(guān)高可用平臺(tái),進(jìn)一步提高服務(wù)的部署速度和用戶(hù)體驗(yàn),提升資源利用率。

運(yùn)維安全

運(yùn)維安全負(fù)責(zé)網(wǎng)絡(luò)、系統(tǒng)和業(yè)務(wù)等方面的安全加固工作,進(jìn)行常規(guī)的安全掃描、滲透測(cè)試,進(jìn)行安全工具和系統(tǒng)研發(fā)以及安全事件應(yīng)急處理。詳細(xì)的工作職責(zé)如下所述。

1.安全制度建立

根據(jù)公司內(nèi)部的具體流程,制定切實(shí)可行,且行之有效的安全制度。

2.安全培訓(xùn)

定期向員工提供具有針對(duì)性的安全培訓(xùn)和考核,在全公司內(nèi)建立安全負(fù)責(zé)人制度。

3.風(fēng)險(xiǎn)評(píng)估

通過(guò)黑白盒測(cè)試和檢查機(jī)制,定期產(chǎn)生對(duì)物理網(wǎng)絡(luò)、服務(wù)器、業(yè)務(wù)應(yīng)用、用戶(hù)數(shù)據(jù)等方面的總體風(fēng)險(xiǎn)評(píng)估結(jié)果。

4.安全建設(shè)

根據(jù)風(fēng)險(xiǎn)評(píng)估結(jié)果,加固最薄弱的環(huán)節(jié),包括設(shè)計(jì)安全防線(xiàn)、部署安全設(shè)備、及時(shí)更新補(bǔ)丁、防御病毒、源代碼自動(dòng)掃描和業(yè)務(wù)產(chǎn)品安全咨詢(xún)等。為了降低可能泄露數(shù)據(jù)的價(jià)值,通過(guò)加密、匿名化、混淆數(shù)據(jù),乃至定期刪除等技術(shù)手段和流程來(lái)達(dá)到目的。

5.安全合規(guī)

為了滿(mǎn)足例如支付牌照等合規(guī)性要求,安全團(tuán)隊(duì)承擔(dān)著安全合規(guī)的對(duì)外接口人工作。

6.應(yīng)急響應(yīng)

建立安全報(bào)警系統(tǒng),通過(guò)安全中心收集第三方發(fā)現(xiàn)的安全問(wèn)題,組織各部門(mén)對(duì)已經(jīng)發(fā)現(xiàn)的安全問(wèn)題進(jìn)行修復(fù)、影響面評(píng)估、事后安全原因追查。

運(yùn)維工作發(fā)展過(guò)程

早期的運(yùn)維團(tuán)隊(duì)在人員較少的情況下,主要是進(jìn)行數(shù)據(jù)中心建設(shè)、基礎(chǔ)網(wǎng)絡(luò)建設(shè)、服務(wù)器采購(gòu)和服務(wù)器安裝交付工作。幾乎很少涉及線(xiàn)上服務(wù)的變更、監(jiān)控、管理等工作。

這個(gè)時(shí)候的運(yùn)維團(tuán)隊(duì)更多的屬于基礎(chǔ)建設(shè)的角色,提供一個(gè)簡(jiǎn)單、可用的網(wǎng)絡(luò)環(huán)境和系統(tǒng)環(huán)境即可。

隨著業(yè)務(wù)產(chǎn)品的逐漸成熟,對(duì)于服務(wù)質(zhì)量方面就有了更高的要求。這個(gè)時(shí)候的運(yùn)維團(tuán)隊(duì)還會(huì)承擔(dān)一些服務(wù)器監(jiān)控的工作,同時(shí)會(huì)負(fù)責(zé)LVS、Nginx等與業(yè)務(wù)邏輯無(wú)關(guān)的4/7層運(yùn)維工作。

這個(gè)時(shí)候服務(wù)變更更多的是逐臺(tái)的手工操作,或者有一些簡(jiǎn)單批量腳本的出現(xiàn)。監(jiān)控的焦點(diǎn)更多的在服務(wù)器狀態(tài)和資源使用情況上,對(duì)服務(wù)應(yīng)用狀態(tài)的監(jiān)控幾乎很少,監(jiān)控更多的使用各種開(kāi)源系統(tǒng)如Nagios、Cacti等。

由于業(yè)務(wù)規(guī)模和復(fù)雜度的持續(xù)增加,運(yùn)維團(tuán)隊(duì)會(huì)逐漸劃分為應(yīng)用運(yùn)維和系統(tǒng)運(yùn)維兩大塊。應(yīng)用運(yùn)維開(kāi)始接手線(xiàn)上業(yè)務(wù),逐步開(kāi)展服務(wù)監(jiān)控梳理、數(shù)據(jù)備份以及服務(wù)變更的工作。

隨著對(duì)服務(wù)的深入,應(yīng)用運(yùn)維工程師有能力開(kāi)始對(duì)服務(wù)進(jìn)行一些簡(jiǎn)單的優(yōu)化。同時(shí),為了應(yīng)對(duì)每天大量的服務(wù)變更,我們也開(kāi)始編寫(xiě)各類(lèi)運(yùn)維工具,針對(duì)某些特定的服務(wù)能夠很方便的批量變更。

隨著業(yè)務(wù)規(guī)模的增大,基礎(chǔ)設(shè)施由于容量規(guī)劃不足或抵御風(fēng)險(xiǎn)能力較弱導(dǎo)致的故障也越來(lái)越多,迫使運(yùn)維人員開(kāi)始將更多的精力投入到多數(shù)據(jù)中心容災(zāi)、預(yù)案管理的方向上。

業(yè)務(wù)規(guī)模達(dá)到一定程度后,開(kāi)源的監(jiān)控系統(tǒng)在性能和功能方面,已經(jīng)無(wú)法滿(mǎn)足業(yè)務(wù)需求;大量的服務(wù)變更、復(fù)雜的服務(wù)關(guān)系,以前靠人工記錄、工具變更的方式不管在效率還是準(zhǔn)確性方面也都無(wú)法滿(mǎn)足業(yè)務(wù)需求。

在安全方面也出現(xiàn)了各種大大小小的事件,迫使我們投入更多的精力在安全防御上。逐漸的,運(yùn)維團(tuán)隊(duì)形成之前提到的5個(gè)大的工作分類(lèi),每個(gè)分類(lèi)都需要有專(zhuān)精的人才。

這個(gè)時(shí)候系統(tǒng)運(yùn)維更專(zhuān)注于基礎(chǔ)設(shè)施的建設(shè)和運(yùn)維,提供穩(wěn)定、高效的網(wǎng)絡(luò)環(huán)境,交付服務(wù)器等資源給應(yīng)用運(yùn)維工程師。應(yīng)用運(yùn)維更專(zhuān)注于服務(wù)運(yùn)行狀態(tài)和效率。

數(shù)據(jù)庫(kù)運(yùn)維屬于應(yīng)用運(yùn)維工作的細(xì)化,更專(zhuān)注于數(shù)據(jù)庫(kù)領(lǐng)域的自動(dòng)化、性能優(yōu)化和安全防御。運(yùn)維研發(fā)和運(yùn)維安全提供各類(lèi)平臺(tái)、工具,進(jìn)一步提升運(yùn)維工程師的工作效率,使業(yè)務(wù)服務(wù)運(yùn)行得更加穩(wěn)定、高效和安全。

我們將運(yùn)維發(fā)展過(guò)程劃分為4個(gè)階段:

手工管理階段:業(yè)務(wù)流量不大,服務(wù)器數(shù)量相對(duì)較少,系統(tǒng)復(fù)雜度不高。對(duì)于日常的業(yè)務(wù)管理操作,大家更多的是逐臺(tái)登錄服務(wù)器進(jìn)行手工操作,屬于各自為戰(zhàn),每個(gè)人都有自己的操作方式,缺少必要的操作標(biāo)準(zhǔn)、流程機(jī)制,比如業(yè)務(wù)目錄環(huán)境都是各式各樣的。

工具批量操作階段:隨著服務(wù)器規(guī)模、系統(tǒng)復(fù)雜度的增加,全人工的操作方式已經(jīng)不能滿(mǎn)足業(yè)務(wù)的快速發(fā)展需要。因此,運(yùn)維人員逐漸開(kāi)始使用批量化的操作工具,針對(duì)不同操作類(lèi)型出現(xiàn)了不同的腳本程序。

但各團(tuán)隊(duì)都有自己的工具,每次操作需求發(fā)生變化時(shí)都需要調(diào)整工具。這主要是因?yàn)閷?duì)于環(huán)境、操作的規(guī)范不夠,導(dǎo)致可程序化處理能力較弱。此時(shí),雖然效率提升了一部分,但很快又遇到了瓶頸。

操作的質(zhì)量并沒(méi)有太多的提升,甚至可能因?yàn)榕繄?zhí)行而導(dǎo)致更大規(guī)模的問(wèn)題出現(xiàn)。我們開(kāi)始建立大量的流程規(guī)范,比如復(fù)查機(jī)制,先上線(xiàn)一臺(tái)服務(wù)器觀(guān)察10分鐘后再繼續(xù)后面的操作,一次升級(jí)完成后至少要觀(guān)察20分鐘等。

這些主要還是靠人來(lái)監(jiān)督和執(zhí)行,但在實(shí)際過(guò)程中執(zhí)行往往不到位,反而降低了工作效率。

平臺(tái)管理階段:在這個(gè)階段,對(duì)于運(yùn)維效率和誤操作率有了更高的要求,我們決定開(kāi)始建設(shè)運(yùn)維平臺(tái),通過(guò)平臺(tái)承載標(biāo)準(zhǔn)、流程,進(jìn)而解放人力和提高質(zhì)量。

這個(gè)時(shí)候?qū)Ψ?wù)的變更動(dòng)作進(jìn)行了抽象,形成了操作方法、服務(wù)目錄環(huán)境、服務(wù)運(yùn)行方式等統(tǒng)一的標(biāo)準(zhǔn),如程序的啟停接口必須包括啟動(dòng)、停止、重載等。通過(guò)平臺(tái)來(lái)約束操作流程,如上面提到的上線(xiàn)一臺(tái)服務(wù)器觀(guān)察10分鐘。

在平臺(tái)中強(qiáng)制設(shè)定暫停檢查點(diǎn),在第一臺(tái)服務(wù)器操作完成后,需要運(yùn)維人員填寫(xiě)相應(yīng)的檢查項(xiàng),然后才可以繼續(xù)執(zhí)行后續(xù)的部署動(dòng)作。

系統(tǒng)自調(diào)度階段:更大規(guī)模的服務(wù)數(shù)量、更復(fù)雜的服務(wù)關(guān)聯(lián)關(guān)系、各個(gè)運(yùn)維平臺(tái)的林立,原有的將批量操作轉(zhuǎn)化成平臺(tái)操作的方式已經(jīng)不再適合,需要對(duì)服務(wù)變更進(jìn)行更高一層的抽象。

將每一臺(tái)服務(wù)器抽象成一個(gè)容器,由調(diào)度系統(tǒng)根據(jù)資源使用情況,將服務(wù)調(diào)度、部署到合適的服務(wù)器上,自動(dòng)化完成與周邊各個(gè)運(yùn)維系統(tǒng)的聯(lián)動(dòng),比如監(jiān)控系統(tǒng)、日志系統(tǒng)、備份系統(tǒng)等。

通過(guò)自調(diào)度系統(tǒng),根據(jù)服務(wù)運(yùn)行情況動(dòng)態(tài)伸縮容量,能夠自動(dòng)化處理常見(jiàn)的服務(wù)故障。運(yùn)維人員的工作也會(huì)前置到產(chǎn)品設(shè)計(jì)階段,協(xié)助研發(fā)人員改造服務(wù)使其可以接入到自調(diào)度系統(tǒng)中。

在整個(gè)運(yùn)維的發(fā)展過(guò)程中,希望所有的工作都自動(dòng)化起來(lái),減少人的重復(fù)工作,降低知識(shí)傳遞的成本,使我們的運(yùn)維交付更高效、更安全,使產(chǎn)品運(yùn)行更穩(wěn)定。對(duì)于故障的處理,也希望由事后處理變成提前發(fā)現(xiàn),由人工處理變成系統(tǒng)自動(dòng)容災(zāi)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀(guān)點(diǎn))

更多
暫無(wú)評(píng)論