本文來自微信公眾號“twt企業(yè)IT社區(qū)”,作者/任杰,資深云服務(wù)經(jīng)理。
隨著近幾年人們對云計算的認(rèn)可,云基礎(chǔ)設(shè)施已從建設(shè)期,逐步過渡到運維期。
為應(yīng)對不斷變化的企業(yè)外部環(huán)境,提升數(shù)字化水平,數(shù)字化轉(zhuǎn)型逐漸被更多企業(yè)采納,并應(yīng)用新的云技術(shù)來降低企業(yè)成本,提高內(nèi)部運營效率。云基礎(chǔ)設(shè)施作為應(yīng)用的載體,展現(xiàn)出與傳統(tǒng)運維相近的方面,但是也有其差異性。
本文將對云基礎(chǔ)設(shè)施服務(wù)運營過程中的六大痛點進行闡述。
綜述
云基礎(chǔ)設(shè)施服務(wù)同樣適用ITIL相關(guān)理論及最佳實踐。隨著新技術(shù)的發(fā)展變化,運維服務(wù)不斷融入新的內(nèi)容,如:敏捷、DevOps等,并在具體環(huán)境中選擇性剪裁需要的模塊??梢哉f,只有選擇適合自己的運維模式,才是最佳實踐,但在這過程中需要不斷優(yōu)化整合步驟及流程。
總體來看,ITIL涉及的模塊有:戰(zhàn)略與規(guī)劃、服務(wù)設(shè)計、數(shù)字化開發(fā)與發(fā)布、服務(wù)交付管理、運維管理、資源管理等。
痛點1設(shè)備管理
雖然云數(shù)據(jù)中心,不像制造業(yè)工廠有明顯的原料、生產(chǎn)、產(chǎn)成品、庫房管理等環(huán)節(jié),很多都是無形看不到的資產(chǎn)信息,如:軟件、授權(quán)、操作系統(tǒng)。但此類設(shè)備的管理依然會制約并影響最終產(chǎn)品的客戶體驗。
問題1如何平衡采購到貨周期與設(shè)備使用
設(shè)備采購一般會與提供商建立穩(wěn)固的合作關(guān)系。這樣,針對標(biāo)準(zhǔn)化設(shè)備,到貨時間相對少,但部分關(guān)鍵部件及特種設(shè)備采購時間將會大大增加,有時候會因原料缺少導(dǎo)致長達一個月設(shè)備交付延遲。因此,面對客戶不斷增加的資源需求與無法快速擴容的情況產(chǎn)生矛盾。因此如何平衡此類矛盾將直接影響資源交付及時性及客戶體驗。針對此類情況:
首先應(yīng)明確各類設(shè)備采購周期,并實時跟蹤常用設(shè)備采購周期情況;
其次,做好客戶需求調(diào)研,盡可能提前預(yù)知客戶需求;
最后,根據(jù)經(jīng)驗確認(rèn)平臺擴容、增加設(shè)備預(yù)警線(需要預(yù)留在用業(yè)務(wù)日常增長量、少量業(yè)務(wù)增加需求量),提前發(fā)起采購流程。
問題2在庫在用設(shè)備管理
隨著設(shè)備不斷增加,設(shè)備管理問題將逐步顯現(xiàn)出來,特別是出現(xiàn)一些變更情況,會觸發(fā)設(shè)備信息變化。針對此類情況:
首先,制定設(shè)備管理相關(guān)的制度管理規(guī)范(含庫房管理、設(shè)備上架信息等),形成閉環(huán)管理;
其次,安排專人對設(shè)備進行管理;
最后,做好設(shè)備變化信息更新(如:ip、位置、型號、變更情況)。
特點1.設(shè)備管理周期基本情況
平臺初建期-中期運維期-中期擴容-后續(xù)平臺結(jié)束及收尾
設(shè)備數(shù)量會經(jīng)歷平臺初建時期的大量采購,平臺建成后一段時間的穩(wěn)定運行,資源,平臺擴容的設(shè)備再次增長期,業(yè)務(wù)平穩(wěn)運行后設(shè)備采購減少。
小特點:維保期內(nèi)與維保過保后管理差異,需要特別關(guān)注過保設(shè)備管理。
特點2.云環(huán)境下設(shè)備情況
設(shè)備彈性擴容,會指數(shù)增加,對平臺設(shè)備需求指數(shù)增加;大規(guī)模環(huán)境下資源的標(biāo)準(zhǔn)化。
傳統(tǒng)模式情況下會對總的使用量及后期擴展進行評估,并可保證在初次建設(shè)后后續(xù)幾年的使用需求。更多的是單租戶。
云環(huán)境下,涉及多租戶管理,資源使用及增加更會出現(xiàn)不確定性,需要維護一定的空閑可用資源。
痛點2客戶、運維人員、公司內(nèi)部三方關(guān)系平衡
云基礎(chǔ)設(shè)施服務(wù)作為云計算的底座,是承載業(yè)務(wù)的平臺,關(guān)聯(lián)到客戶、運維管理人員、運維人員所屬公司。
客戶方有相關(guān)的管理制度,公司方也對應(yīng)有相應(yīng)的管理制度,運維人員作為中間的紐帶,如何平衡兩方之間的制度,將很大程度上影響各自的滿意度情況。
如:客戶緊急需求與己方制度沖突:客戶因業(yè)務(wù)變化會出現(xiàn)緊急需求,面對如此情況,需要考驗運維管理者臨場的應(yīng)變能力,需要綜合整個平臺的情況,做出最優(yōu)的選擇,并在后續(xù)盡可能的做好優(yōu)化。
痛點3資源優(yōu)化與服務(wù)價值減少矛盾
隨著更多的企業(yè)上云,部分企業(yè)已經(jīng)經(jīng)歷了上云的過程,隨著上云業(yè)務(wù)的減少,云上業(yè)務(wù)逐步走向優(yōu)化階段。
一開始客戶認(rèn)為云上資源與實體機有差異,在上云的階段更多的申請了資源使用,隨著后續(xù)業(yè)務(wù)的正常使用,逐漸暴露出資源申請過量。而服務(wù)商的利益是更多希望使用資源,獲得云資源費用。作為云基礎(chǔ)設(shè)施的初衷,是用來充分使用資源利用資源,因此面對此矛盾,我們應(yīng)通過技術(shù)等手段不斷優(yōu)化為客戶提供合理配置資源建議,將有效的資源配置到更為有用的地方。另外,為平衡已方收益情況,可通過提供優(yōu)化資源的服務(wù),或提供其他服務(wù)甚至優(yōu)化方案來補足收益差異,如此,即可滿足不斷優(yōu)化客戶業(yè)務(wù)的情況,也滿足了企業(yè)對利潤的需求。
與此同時,企業(yè)需要不斷地去創(chuàng)新,找到更為優(yōu)化的方案,更為出眾的產(chǎn)品。
隨著企業(yè)業(yè)務(wù)的擴展,更多的企業(yè)采用了多云的模式,企業(yè)IT架構(gòu)也在不斷的進行擴展。同樣專有云與公有云各有特點,需要我們利用各自的特點,對自有業(yè)務(wù)進行合理分配,優(yōu)化成本的同時對業(yè)務(wù)進行合理布局。
痛點4問題處理
多租戶環(huán)境特別是多云環(huán)境下,涉及多方網(wǎng)絡(luò)交互,除去一開始平臺整體的標(biāo)準(zhǔn)化部署后,后續(xù)業(yè)務(wù)交叉,需要更多的網(wǎng)絡(luò)配置,因此在問題排查過程中更加復(fù)雜。面對問題,尤其需要多方配合,特別是在排查中,應(yīng)能總結(jié)出己方問題自證的情況。
另外,成熟的平臺下,問題場景更加固化,可總結(jié)問題處理方式,使用標(biāo)準(zhǔn)的問題處理方式加快問題處理。
針對問題一般處理方式,可以使用如下五步法:
要想做好問題排查,運維人員不僅僅應(yīng)熟悉單純的網(wǎng)路或者系統(tǒng)知識,應(yīng)多方面對知識進行總結(jié)歸納,并通過邏輯思維對確定的問題拆分,逐步分析原因,進行排查,快速找到問題的原因。
痛點5平臺建設(shè)期與運維期差異
隨著云基礎(chǔ)設(shè)施的發(fā)展,基礎(chǔ)設(shè)備不斷標(biāo)準(zhǔn)化,平臺部署階段都是標(biāo)準(zhǔn)化的實施過程,該時期比較短,在建設(shè)后期,業(yè)務(wù)上云初始階段需要業(yè)務(wù)與平臺的磨合,并不斷進行優(yōu)化。
進入運維期后,隨著業(yè)務(wù)的不斷增加,平臺重要等級不斷升級,并隨著與客戶業(yè)務(wù)的交互,客戶粘性逐漸增加。客戶、運維人員、已方互相關(guān)聯(lián),形成一個統(tǒng)一體。因此,面對此階段的運維管理特點,我們應(yīng)該更加深入的了解客戶業(yè)務(wù),并給到客戶不斷優(yōu)化的解決方案,一方面,可以獲得客戶對平臺使用的認(rèn)可;另一方面,更能為客戶業(yè)務(wù)管理方面增加優(yōu)化的可能性。
特別的,在遇到故障時,應(yīng)加強與客戶溝通,將平臺情況與業(yè)務(wù)情況進行相互同步,站在系統(tǒng)思維下,各方盡可能的優(yōu)化,達到服務(wù)客戶、服務(wù)業(yè)務(wù)的目標(biāo)。此時,任何操作都有牽一發(fā)而動全身的情況。因此,針對目前情況,要綜合考慮、多方討論,防止因遺漏導(dǎo)致的一系列連鎖反應(yīng)。
痛點6人員遞進變化
運維本身是一項重復(fù)單一的工作,終極目標(biāo)是保證平臺的穩(wěn)定運行,并結(jié)合業(yè)務(wù)進行恰當(dāng)?shù)膬?yōu)化。作為其中重要的組成部分,人員配置是決定能否將平臺穩(wěn)定運行的前提。針對性格,更適合細心、穩(wěn)重、考慮全面的,如此更能適應(yīng)運維的各種場景。
隨著公司快速發(fā)展,運維人員構(gòu)成也逐漸變得多元化。個人職業(yè)規(guī)劃與組織服務(wù)結(jié)合性、人員流動與資料積累的準(zhǔn)確性等問題逐漸顯現(xiàn)出來。
運維工作雜、多、不定時,因此需要在保證日常工作的同時,不斷結(jié)合自身的職業(yè)規(guī)劃進行提升,以此形成正向循環(huán),在熟悉工作的同時,不斷提升業(yè)務(wù)技能,兩者不可偏廢。
人員流動是組織的正常情況,針對如何能在不斷的流動中保證平臺運維經(jīng)驗的積累沉淀情況,需要建立完整的資料收集流程(日常問題處理場景化、常規(guī)操作標(biāo)準(zhǔn)化),并持續(xù)更新方法。如此盡管有人員的更迭,但對于組織來看,是不斷積淀的。一般情況下,在做好人員管理、運維各階段銜接,3年可將云基礎(chǔ)環(huán)境設(shè)備管理達到成熟水平。
未來展望
隨著云基礎(chǔ)設(shè)備的不斷完善,云底層正向著標(biāo)準(zhǔn)化,自動化發(fā)展。雖然底層的標(biāo)準(zhǔn)化在技術(shù)上并沒有更多的突破,然而底層的變革更能助力上層業(yè)務(wù)的革新。
另外,隨著對效率的追逐,不斷標(biāo)準(zhǔn)化將逐漸演化成模塊化上云方式,并在穩(wěn)定運維后逐步轉(zhuǎn)向?qū)Y源的優(yōu)化利用。
最后,隨著國家對安全性的要求,過去清一色的x86云也將逐步轉(zhuǎn)向信創(chuàng)云。在不斷可適配,可轉(zhuǎn)化的變化下,將會進一步帶來信創(chuàng)平臺的發(fā)展。