淺談辦公I(xiàn)T運(yùn)維與運(yùn)營(yíng)的側(cè)重點(diǎn)

數(shù)碼咖
從基礎(chǔ)架構(gòu)層面,涉及到全員都在使用的服務(wù),需要去考慮消除架構(gòu)的單點(diǎn)風(fēng)險(xiǎn),并盡可能對(duì)核心服務(wù)做解耦。當(dāng)然架構(gòu)的進(jìn)化是一個(gè)不斷妥協(xié)、不斷優(yōu)化的過(guò)程,需要充分評(píng)估公司能夠在辦公I(xiàn)T上的投入有多少。根據(jù)不同的投入,會(huì)產(chǎn)生不同可用性級(jí)別的架構(gòu)設(shè)計(jì)。

IT運(yùn)維和運(yùn)營(yíng),即IT Operations,其中IT運(yùn)維還隱含了IT maintenance(維護(hù))的成分。運(yùn)維和運(yùn)營(yíng)是IT的一體兩面,是相互促進(jìn)的關(guān)系。沒(méi)有好的運(yùn)維就談不上運(yùn)營(yíng),沒(méi)有好的運(yùn)營(yíng)的話,運(yùn)維也不可能持續(xù)性良性的發(fā)展。下面的導(dǎo)圖是我整理的業(yè)內(nèi)常見的對(duì)ITOM的理解,都有一定道理:

10cc1ff9abd24c50ba6b4889bf9e4457(1).jpg

下面具體來(lái)看看怎么理解這張圖。

(一)運(yùn)維從被動(dòng)維護(hù)到主動(dòng)預(yù)警

活著意味著針對(duì)辦公I(xiàn)T基礎(chǔ)架構(gòu)處于被動(dòng)維護(hù)的形態(tài),到處救火,被動(dòng)去維持底層架構(gòu)的可靠性和穩(wěn)定性。從“活著”到“活得好”意味著IT在運(yùn)維的穩(wěn)定性、可靠性、安全性方面要有一個(gè)本質(zhì)的跨越。唯有如此,才能給后續(xù)的IT運(yùn)營(yíng)帶來(lái)一個(gè)穩(wěn)固的基礎(chǔ)。到具體操作層面:

其一:提高IT辦公架構(gòu)的穩(wěn)定性、安全性、靈活性

從基礎(chǔ)架構(gòu)層面,涉及到全員都在使用的服務(wù),需要去考慮消除架構(gòu)的單點(diǎn)風(fēng)險(xiǎn),并盡可能對(duì)核心服務(wù)做解耦。當(dāng)然架構(gòu)的進(jìn)化是一個(gè)不斷妥協(xié)、不斷優(yōu)化的過(guò)程,需要充分評(píng)估公司能夠在辦公I(xiàn)T上的投入有多少。根據(jù)不同的投入,會(huì)產(chǎn)生不同可用性級(jí)別的架構(gòu)設(shè)計(jì)。舉個(gè)例子:

訪問(wèn)層面可以考慮使用LVS、ngnix去做3-7層的負(fù)載,使用LVS做LDAP的負(fù)載,使用Ngnix做Exchange的訪問(wèn)負(fù)載;數(shù)據(jù)庫(kù)層面可以考慮使用群集、復(fù)制等技術(shù),使用Alwayson做MSSQL的高可用,使用DAG做Exchange的高可用。

從安全性方面,需要持續(xù)性的對(duì)基礎(chǔ)架構(gòu)進(jìn)行安全加固、緊急補(bǔ)丁修復(fù),制定完善的安全加固測(cè)試變更流程、核心業(yè)務(wù)緊急變更流程等。舉個(gè)例子:

微軟補(bǔ)丁更新可以考慮使用系統(tǒng)自帶的WSUS服務(wù),去做補(bǔ)丁的自動(dòng)化測(cè)試、審批和安裝;遇到重大漏洞需要修復(fù),可發(fā)起緊急變更流程,通過(guò)郵件、IM的方式知會(huì)關(guān)聯(lián)方,調(diào)用緊急預(yù)案后再進(jìn)行操作,盡可能將影響面降低到最小。

從靈活性方面,對(duì)外提供服務(wù)的業(yè)務(wù)盡可能不要直接暴露出來(lái),應(yīng)該API化,通過(guò)服務(wù)網(wǎng)關(guān)的形式對(duì)外賦能,做到所有業(yè)務(wù)調(diào)用有鑒權(quán)、有日志記錄。舉個(gè)例子:

可以基于Django+Airflow構(gòu)建自動(dòng)化運(yùn)維平臺(tái),將IT的服務(wù)API化,提供公共服務(wù)網(wǎng)關(guān),將內(nèi)部的API接口掛到網(wǎng)關(guān)上,原則上需要對(duì)外的服務(wù),必須經(jīng)過(guò)服務(wù)網(wǎng)關(guān),至于內(nèi)部服務(wù),則只允許內(nèi)部互相調(diào)用,不允許對(duì)外發(fā)布。比如以前業(yè)務(wù)要集成LDAP,只能是直接綁定AD的服務(wù)器IP,而有了網(wǎng)關(guān),則直接可以訪問(wèn)LDAP服務(wù)的API地址,獲取目錄信息。

其二:制定比較完善的SLA標(biāo)準(zhǔn)

簡(jiǎn)單來(lái)說(shuō),從IT運(yùn)維側(cè)更關(guān)注的是可靠性,所以需要制定可靠性指標(biāo),具體是99.9還是99;從IT運(yùn)營(yíng)側(cè)更關(guān)注的是滿意度,所以需要制定滿意度的考核指標(biāo),具體滿意度能達(dá)到的百分比是多少,是90、80還是其他。SLA的制定主要考慮如下幾個(gè)方面:SLA協(xié)議、SLO目標(biāo)、SLI指標(biāo)、服務(wù)日歷、業(yè)務(wù)范圍(服務(wù)目錄)等。

首先來(lái)了解一下基礎(chǔ)概念:

360截圖16251112669372.png

那具體如何計(jì)算SLO呢?一個(gè)是看可用率;一個(gè)是看可用性。公式如下:

可用率=(AST-DT)/AST*100。AST(agreed service time)是指約定的服務(wù)時(shí)間即上面提到的服務(wù)日歷,DT(Actual downtime during agreed servicetime)在約定服務(wù)時(shí)間內(nèi)的停機(jī)時(shí)間。

可用性計(jì)算公式,是MTBF/(MTBF+MTTR),其值越高,代表可用性越高。系統(tǒng)的可用性程度兩個(gè)指標(biāo),一個(gè)指標(biāo)是MTBF,表示平均故障間隔時(shí)間,MTBF越高說(shuō)明出現(xiàn)故障的次數(shù)越少;另一個(gè)指標(biāo)是MTTR,表示平均恢復(fù)時(shí)間,MTTR越小說(shuō)明故障恢復(fù)時(shí)間越短,系統(tǒng)受影響時(shí)長(zhǎng)越短。

SLA的核心考量因素是什么?簡(jiǎn)單來(lái)說(shuō),包括如下幾點(diǎn):

●核心服務(wù)列表

●服務(wù)周期、服務(wù)不可用條件的界定

●計(jì)算公式

●可用性承諾:幾個(gè)九

●免責(zé)條款

●補(bǔ)償規(guī)則

●責(zé)任人

SLI的核心考量因素又是什么?簡(jiǎn)單來(lái)說(shuō),主要是制定監(jiān)控指標(biāo),比如延時(shí)、ping連續(xù)性、探針、API連通性、服務(wù)狀態(tài)等。

有了SLA協(xié)議、SLO和SLI之后,我們還需要完善自己的服務(wù)響應(yīng)體系,簡(jiǎn)單說(shuō),就是發(fā)生故障了,如何去應(yīng)急,如何去處理。具體需要考慮的點(diǎn)包括:服務(wù)響應(yīng)時(shí)間(2分鐘、15分鐘、2小時(shí)、4小時(shí)、8小時(shí)等)、服務(wù)響應(yīng)級(jí)別(P1、P2、P3、P4)、服務(wù)響應(yīng)流程(普通事件流程、重大事件流程)、服務(wù)保障條款(5*8還是7*24、是否提供備件、現(xiàn)場(chǎng)還是遠(yuǎn)程)等。

其三:支撐SLA目標(biāo)實(shí)現(xiàn)的監(jiān)控日志體系

有了方法論、有了規(guī)范和流程,還需要有對(duì)應(yīng)的工具去落地執(zhí)行。對(duì)于微軟服務(wù),可以考慮微軟自有的SCOM監(jiān)控和Power BI可視化服務(wù);對(duì)于跨平臺(tái)的服務(wù)(既有微軟、又有開源組件),可以考慮使用Zabbix做監(jiān)控、Grafana做可視化大屏、ELK做日志平臺(tái)。這里需要特別說(shuō)明的是,如果是用Zabbix監(jiān)控微軟的應(yīng)用服務(wù),比如Exchange,可能要結(jié)合腳本去做探測(cè)。微軟自家SCOM的優(yōu)勢(shì)是有各種MP包,可以做應(yīng)用的深度監(jiān)控,劣勢(shì)是針對(duì)開源平臺(tái)組件的監(jiān)控比較弱。

從建立辦公I(xiàn)T監(jiān)控日志體系的角度,我們需要考慮如下幾個(gè)因素(不是全部,羅列了一部分比較重要的):

●基礎(chǔ)監(jiān)控

●日志監(jiān)控

●服務(wù)監(jiān)控

●應(yīng)用監(jiān)控

●性能監(jiān)控

●監(jiān)控大屏

●SLA視圖

●日志收集

●日志分析

監(jiān)控告警分級(jí)等

有了比較完善的監(jiān)控體系,再結(jié)合SLA的約束,就可以讓辦公I(xiàn)T運(yùn)維質(zhì)量發(fā)生根本性的變化,真正實(shí)現(xiàn)從被動(dòng)維護(hù)到主動(dòng)預(yù)警。

(二)基于ITIL建立適配的ITOM體系

ITIL目前已經(jīng)更新到了v4版本,從傳統(tǒng)辦公I(xiàn)T的角度來(lái)看,ITIL主要關(guān)注四個(gè)方面,即:人、流程、信息和工具(技術(shù))。其中:

人側(cè)重于生產(chǎn)力提升和相互連接;

流程側(cè)重于自動(dòng)化、標(biāo)準(zhǔn)化、簡(jiǎn)單高效;

信息側(cè)重于安全、標(biāo)準(zhǔn)及合規(guī);

工具(技術(shù))強(qiáng)調(diào)自動(dòng)化、可集成、角色細(xì)分。

從數(shù)字化辦公I(xiàn)T的角度看,在傳統(tǒng)IT的基礎(chǔ)上,需要額外關(guān)注IT資源的云化管理和敏捷項(xiàng)目管理及開發(fā)。其中:

云化管理方面,需要構(gòu)建跨云管理的、支持多租戶特性、支持權(quán)限細(xì)分、支持?jǐn)?shù)據(jù)合規(guī)隔離、支持對(duì)接信息化流程、支持服務(wù)網(wǎng)關(guān)、支持任務(wù)工單、支持日志記錄、支持報(bào)表可視化、支持任務(wù)工作流的辦公I(xiàn)T自動(dòng)化云平臺(tái)。具體涉及的技術(shù)??赡馨ǎ呵岸耍╒UE或其他框架)、后端(Django框架)、異步(celery)、工作流(airflow)、腳本執(zhí)行器(PowerShell、Shell)等。

敏捷項(xiàng)目管理和開發(fā)方面,需要進(jìn)一步在標(biāo)準(zhǔn)項(xiàng)目管理的基礎(chǔ)上,制定項(xiàng)目的分級(jí)管理制度,針對(duì)不同體量和規(guī)模的辦公I(xiàn)T項(xiàng)目,靈活應(yīng)對(duì),快速應(yīng)對(duì),快速上線和迭代。開發(fā)迭代需要更敏捷,比如功能迭代考慮使用Jira;持續(xù)集成、部署和交付考慮使用Git CI/CD流水線;業(yè)務(wù)的上線考慮盡可能容器化,通過(guò)啟docker的方式或使用公司的K8S集群來(lái)快速部署、回滾。

(三)從主動(dòng)運(yùn)維到主動(dòng)運(yùn)營(yíng)

主動(dòng)運(yùn)維做好了,就需要開始以經(jīng)營(yíng)的心態(tài)來(lái)做辦公I(xiàn)T的主動(dòng)運(yùn)營(yíng)了。與主動(dòng)運(yùn)維不同,主動(dòng)運(yùn)營(yíng)關(guān)注的維度更多的是業(yè)務(wù)數(shù)據(jù)的可視化呈現(xiàn)、服務(wù)的滿意度提升,本質(zhì)上是面向人。我們需要換個(gè)角度來(lái)思考:

老板側(cè)(信息化領(lǐng)導(dǎo)、兄弟部門領(lǐng)導(dǎo)、中臺(tái)領(lǐng)導(dǎo))

1.希望看到的IT運(yùn)營(yíng)數(shù)據(jù)是什么,經(jīng)營(yíng)數(shù)據(jù)是什么?

2.看這些數(shù)據(jù)的目的是分析人效比、投資回報(bào)率還是做成本分?jǐn)偅?/p>

3.這些數(shù)據(jù)折射出什么問(wèn)題和痛點(diǎn),如何去指導(dǎo)接下來(lái)的IT運(yùn)營(yíng)規(guī)劃工作?

分析這些問(wèn)題,首先是做業(yè)務(wù)需求分析、制定成本收入核算規(guī)則及模板。不要出現(xiàn)辦公I(xiàn)T的不同資源,核算維度不一致、規(guī)則不統(tǒng)一,導(dǎo)致最終數(shù)據(jù)匯總分析困難,無(wú)法有效呈現(xiàn)。其次需要有工具支撐,在運(yùn)維可視化的基礎(chǔ)上,基于IT自動(dòng)化云平臺(tái)做運(yùn)營(yíng)數(shù)據(jù)的匯總分析,能讓老板清晰看到每個(gè)部分使用辦公I(xiàn)T服務(wù)的數(shù)量和成本,使用率的變化趨勢(shì),人員的變動(dòng)趨勢(shì)等。這里面涉及到的資源包括:運(yùn)營(yíng)報(bào)表的設(shè)計(jì)和開發(fā)、后端數(shù)據(jù)的收集、匯總和整理等。

用戶側(cè)(個(gè)人用戶和業(yè)務(wù)用戶)

這里的用戶是一個(gè)籠統(tǒng)的說(shuō)法,個(gè)人用戶包括公司的員工以及外部服務(wù)的個(gè)體客戶對(duì)象(比如關(guān)聯(lián)實(shí)體、獨(dú)立實(shí)體等);業(yè)務(wù)用戶包括公司的各個(gè)使用辦公I(xiàn)T服務(wù)的業(yè)務(wù)部門(比如使用到了IT的SMTP發(fā)信服務(wù),LDAP認(rèn)證服務(wù)等)。

首先個(gè)人用戶關(guān)注的更多是辦公體驗(yàn),是不是用起來(lái)簡(jiǎn)單、效率高,是不是切實(shí)提高了用戶的生產(chǎn)力,這些直接的感受和實(shí)際的使用情況決定了用戶對(duì)辦公I(xiàn)T的服務(wù)滿意度。來(lái)自用戶的反饋信息,也能夠幫助IT持續(xù)提升服務(wù)水平和質(zhì)量。具體落地來(lái)看,需要思考:

1.服務(wù)入口是不是簡(jiǎn)單統(tǒng)一,用戶是不是可以通過(guò)一個(gè)固定渠道來(lái)獲取IT的多樣化服務(wù)(電話、現(xiàn)場(chǎng)、郵件、IM等)?

2.有沒(méi)有對(duì)應(yīng)的服務(wù)流程,比如緊急服務(wù)支持流程,VIP支持流程,設(shè)備申請(qǐng)和退回流程,會(huì)議申請(qǐng)流程?

3.有沒(méi)有分級(jí)的響應(yīng)機(jī)制和團(tuán)隊(duì),比如從服務(wù)臺(tái)到1.5線再到2線、3線工程師的層級(jí)?

對(duì)于服務(wù)入口來(lái)說(shuō),一般會(huì)在企業(yè)內(nèi)網(wǎng)門戶放置IT服務(wù)主頁(yè),將所有IT可提供的服務(wù)目錄統(tǒng)一放到一個(gè)地方;對(duì)于服務(wù)形式的多樣化來(lái)說(shuō),需要有工單系統(tǒng)做支撐,從而支持通過(guò)電話、郵件、IM等多種渠道聯(lián)系到IT;對(duì)于服務(wù)流程來(lái)說(shuō),可以考慮有專門的VIP支持小組,緊急case應(yīng)急預(yù)案,特殊用戶考慮服務(wù)到工位等;對(duì)于團(tuán)隊(duì)的設(shè)置來(lái)說(shuō),從服務(wù)臺(tái)、1.5線到2線,再到廠商這種4級(jí)支持模式就可以了;對(duì)于和員工密切相關(guān)的入離職流程來(lái)說(shuō),由于涉及到多個(gè)部門,多個(gè)審批環(huán)節(jié),可以考慮設(shè)置線上及線下的共享服務(wù)大廳,為用戶提供一站式的服務(wù)支持。以上措施和手段,其實(shí)就是一個(gè)人員、信息、流程和技術(shù)(工具)的有機(jī)結(jié)合;對(duì)于員工自助服務(wù)來(lái)說(shuō),可以設(shè)置自助服務(wù)終端機(jī),也可以將IT的自助服務(wù)門戶和移動(dòng)端的協(xié)同辦公APP做集成,用戶通過(guò)移動(dòng)端APP的統(tǒng)一工作臺(tái)界面,獲取到IT的自助服務(wù),比如郵箱擴(kuò)容、密碼重置、資源申請(qǐng)等。

360截圖16251112669372.png

其次看業(yè)務(wù)用戶,說(shuō)白了就是辦公I(xiàn)T的服務(wù)除了做內(nèi)部用戶服務(wù)的支撐,讓用戶爽,還要做內(nèi)部和外部業(yè)務(wù)的賦能,讓業(yè)務(wù)也爽。通過(guò)IT自動(dòng)化運(yùn)維云平臺(tái)作為連接器,所有對(duì)外提供的服務(wù)都可以訪問(wèn)公共平臺(tái)獲?。∣penAPI),統(tǒng)一業(yè)務(wù)申請(qǐng)的入口,任務(wù)工單化,所有的交互操作均合規(guī),有審計(jì)記錄。辦公I(xiàn)T對(duì)外經(jīng)常提供給業(yè)務(wù)使用的服務(wù)包括:LDAP認(rèn)證、SMTP郵件、監(jiān)控、日志平臺(tái)、多租戶云管平臺(tái)、SSC或者BPM相關(guān)的IT業(yè)務(wù)流程自動(dòng)執(zhí)行接口等。業(yè)務(wù)滿意主要看可靠性,也就是業(yè)務(wù)在使用辦公I(xiàn)T服務(wù)的時(shí)候,能夠達(dá)到幾個(gè)九的可靠性。一般對(duì)外開放的服務(wù),至少要達(dá)到99.9的水平,如果是實(shí)時(shí)性要求比較高的服務(wù),可能需要達(dá)到至少99.95,比如核心業(yè)務(wù)電話外呼的報(bào)警推送。

以上雖然聊了很多,但本質(zhì)上涉及的IT運(yùn)營(yíng)內(nèi)容還在一個(gè)比較初級(jí)的階段,也可以說(shuō)是從信息化往數(shù)字化過(guò)渡的階段,如果這個(gè)階段的運(yùn)營(yíng)和運(yùn)維都做的比較到位了,那么后期其實(shí)可以考慮基于大數(shù)據(jù)、AI技術(shù),持續(xù)做場(chǎng)景化運(yùn)營(yíng),把辦公I(xiàn)T運(yùn)營(yíng)往精細(xì)化、個(gè)性化方向去帶。

最后,我們也不能忽視兩個(gè)矛盾:

企業(yè)辦公I(xiàn)T需求的快速增長(zhǎng)和成本投入不足的矛盾

企業(yè)業(yè)務(wù)的快速變化和辦公I(xiàn)T建設(shè)項(xiàng)目周期長(zhǎng)的矛盾

這兩個(gè)矛盾的解決方式,在上文中也能窺見一二,根據(jù)不同企業(yè)場(chǎng)景的實(shí)際變化,仁者見仁,智者見智吧。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論