本文來(lái)自微信公眾號(hào)“中國(guó)電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng)”,作者/宋婧。
近來(lái),全球宕機(jī)事件頻發(fā),引發(fā)用戶(hù)和業(yè)內(nèi)人士對(duì)網(wǎng)絡(luò)穩(wěn)定性與安全性的擔(dān)憂(yōu)。7月1日,鴻雪科技董事長(zhǎng)兼CEO鄭乃東在接受《中國(guó)電子報(bào)》獨(dú)家專(zhuān)訪時(shí)表示,隨著大量傳統(tǒng)應(yīng)用變成了互聯(lián)網(wǎng)應(yīng)用,且已深入到工作生活場(chǎng)景中,宕機(jī)事件帶來(lái)的影響越來(lái)越大。推動(dòng)SRE(網(wǎng)站可靠性工程)是解決可靠性、避免各種宕機(jī)的重要路徑。
鴻雪科技董事長(zhǎng)兼CEO鄭乃東
宕機(jī)事件頻發(fā)加劇系統(tǒng)可靠性擔(dān)憂(yōu)
4月8日,“騰訊云崩了”沖上熱搜。大量網(wǎng)友反饋,稱(chēng)騰訊云出現(xiàn)服務(wù)故障,接口響應(yīng)報(bào)錯(cuò)、網(wǎng)頁(yè)顯示504錯(cuò)誤,范圍覆蓋全國(guó)各地。6月4日,ChatGPT遭遇近8小時(shí)大規(guī)模宕機(jī),包括其網(wǎng)站和應(yīng)用程序在內(nèi)都無(wú)法訪問(wèn),全球數(shù)百萬(wàn)用戶(hù)受到影響。7月2日,阿里云發(fā)生宕機(jī)事件,雖說(shuō)從發(fā)現(xiàn)故障到解決用時(shí)31分鐘,從發(fā)現(xiàn)故障到影響恢復(fù)用時(shí)38分鐘,但B站、小紅書(shū)、戀與深空、酷安等多家大廠APP均受到波及。
“大家之所以感覺(jué)到宕機(jī)事件變多了,主要原因是互聯(lián)網(wǎng)應(yīng)用的數(shù)量變多了,像以前的Office和WPS這種單機(jī)軟件現(xiàn)在也都連接了云服務(wù),大量傳統(tǒng)應(yīng)用都變成了互聯(lián)網(wǎng)應(yīng)用,僅蘋(píng)果商店的互聯(lián)網(wǎng)應(yīng)用數(shù)量就超過(guò)200萬(wàn)個(gè),而且這類(lèi)互聯(lián)網(wǎng)應(yīng)用已經(jīng)深入到我們的工作生活當(dāng)中,比如微信、嘀嘀、美團(tuán)、抖音、騰訊會(huì)議等,因此我們對(duì)宕機(jī)的感知也會(huì)越來(lái)越明顯。”鄭乃東分析說(shuō)道。
ChatGPT宕機(jī)事件
實(shí)際上,隨著互聯(lián)網(wǎng)軟件功能越來(lái)越多,結(jié)構(gòu)越來(lái)越復(fù)雜,在日常運(yùn)營(yíng)過(guò)程中出現(xiàn)問(wèn)題的概率也會(huì)越來(lái)越大。一些大型科技公司,如亞馬遜、微軟和谷歌等,每年在系統(tǒng)可靠性上的投入占其整體技術(shù)預(yù)算的15-20%。而在國(guó)內(nèi),很多公司依然存在不重視可靠性、可靠性人才奇缺、沒(méi)有可靠性管理、對(duì)可靠性認(rèn)識(shí)模糊等問(wèn)題。
“最要緊的是主觀上的重視程度,不管是云供應(yīng)商、軟件開(kāi)發(fā)商,還是運(yùn)維環(huán)節(jié)的服務(wù)廠商等,各方都需要重視線上事故的預(yù)防、發(fā)現(xiàn)、定位、處理、復(fù)盤(pán)的全鏈條保障;比如投入專(zhuān)門(mén)的資金,設(shè)置專(zhuān)門(mén)的崗位來(lái)從事可靠性管控方面的工作。”鄭乃東表示。
SRE有望在國(guó)內(nèi)市場(chǎng)快速推廣應(yīng)用
SRE全稱(chēng)是Site Reliability Engineering,指網(wǎng)站可靠性工程,最早由Google提出,旨在提高軟件系統(tǒng)的可用性、低時(shí)延、性能、效率、變更管理、監(jiān)控、應(yīng)急響應(yīng)和容量管理等方面的能力。
“SRE主要通過(guò)自動(dòng)化、監(jiān)控、預(yù)防性措施和持續(xù)改進(jìn)來(lái)減少故障發(fā)生的概率,并且降低故障所造成的影響。”鄭乃東向記者介紹說(shuō)道。首先,SRE能通過(guò)監(jiān)控和告警系統(tǒng)提前發(fā)現(xiàn)潛在問(wèn)題,并快速響應(yīng)和恢復(fù)系統(tǒng)服務(wù);其次,SRE采用軟件工程的方法,與開(kāi)發(fā)人員緊密合作,倡導(dǎo)構(gòu)建業(yè)務(wù)系統(tǒng)內(nèi)置的可靠性,并在運(yùn)維過(guò)程中使用自動(dòng)化和標(biāo)準(zhǔn)化的流程,減少人為錯(cuò)誤,從而進(jìn)一步提升系統(tǒng)的穩(wěn)定性;此外,通過(guò)降低瑣事和持續(xù)優(yōu)化的運(yùn)營(yíng)流程,SRE可以減少運(yùn)維人員的工作負(fù)擔(dān),提高運(yùn)營(yíng)效率。
近年來(lái),隨著中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)、云計(jì)算快速發(fā)展,系統(tǒng)復(fù)雜性和對(duì)可靠性的需求大幅增加,SRE的價(jià)值逐漸被廣泛傳播和認(rèn)可。國(guó)內(nèi)互聯(lián)網(wǎng)大廠如百度、阿里巴巴、騰訊、京東等大型互聯(lián)網(wǎng)公司由于業(yè)務(wù)規(guī)模龐大、用戶(hù)數(shù)量眾多、系統(tǒng)復(fù)雜度高,率先認(rèn)識(shí)到SRE的重要性,并積極推動(dòng)SRE的實(shí)施。
鄭乃東分析說(shuō)道:“這些公司需要確保其平臺(tái)能夠在高流量情況下穩(wěn)定運(yùn)行,避免服務(wù)中斷對(duì)用戶(hù)體驗(yàn)和公司收入以及聲譽(yù)造成的負(fù)面影響。因此,SRE成為了它們提升系統(tǒng)可靠性、提高服務(wù)質(zhì)量的重要手段。”
傳統(tǒng)型企業(yè)乃至中小企業(yè)也開(kāi)始主動(dòng)關(guān)注,并在生產(chǎn)環(huán)境中應(yīng)用SRE。據(jù)權(quán)威調(diào)研機(jī)構(gòu)統(tǒng)計(jì),到2022年,中國(guó)約有40%的大型企業(yè)和20%的中小型企業(yè)正在推行SRE實(shí)踐,并且這樣的企業(yè)逐年遞增。“未來(lái),隨著技術(shù)的不斷發(fā)展和企業(yè)需求的增加,SRE在全國(guó)的應(yīng)用將更加廣泛和深入。”鄭乃東判斷稱(chēng)。
AI給SRE帶來(lái)挑戰(zhàn)與機(jī)遇
盡管SRE可以顯著提升系統(tǒng)的可靠性和穩(wěn)定性,但鄭乃東同時(shí)也指出,SRE存在局限性,并不能完全消除宕機(jī)現(xiàn)象和所有的技術(shù)問(wèn)題。比如,復(fù)雜的業(yè)務(wù)邏輯問(wèn)題,SRE主要關(guān)注系統(tǒng)可靠性層面的問(wèn)題,復(fù)雜的業(yè)務(wù)邏輯錯(cuò)誤仍需依賴(lài)開(kāi)發(fā)團(tuán)隊(duì)解決。再比如,基礎(chǔ)設(shè)施故障,硬件故障、網(wǎng)絡(luò)中斷等基礎(chǔ)設(shè)施問(wèn)題可能超出SRE的控制范圍。另外,自然災(zāi)害、突發(fā)事件等不可預(yù)見(jiàn)的災(zāi)難,SRE無(wú)法完全避免,但可以通過(guò)災(zāi)備方案減小影響。
在他看來(lái),AI的到來(lái)既為SRE帶來(lái)了新的挑戰(zhàn),也帶來(lái)了新的機(jī)會(huì)。一方面,AI系統(tǒng)本身往往具有很高的復(fù)雜性,復(fù)雜的架構(gòu)與當(dāng)前系統(tǒng)的依賴(lài)關(guān)系,使得企業(yè)需要花費(fèi)很大成本學(xué)習(xí)和駕馭AI技術(shù)。據(jù)調(diào)研,超過(guò)60%的企業(yè)認(rèn)為AI系統(tǒng)的復(fù)雜性是實(shí)施過(guò)程中最大的挑戰(zhàn)之一。
另一方面,AI系統(tǒng)依賴(lài)大量數(shù)據(jù),數(shù)據(jù)質(zhì)量和完整性問(wèn)題可能導(dǎo)致模型誤差和系統(tǒng)故障,SRE需要通過(guò)軟件工程的方法,配合統(tǒng)一的數(shù)據(jù)模型,確保所有管理數(shù)據(jù)管道的穩(wěn)定性和可靠性。利用高質(zhì)量的數(shù)據(jù),才能使AI算法和大模型更加精確和高效。
此外,許多AI應(yīng)用,特別是大語(yǔ)言模型相關(guān)的會(huì)話交互型場(chǎng)景里,都需要實(shí)時(shí)處理和及時(shí)響應(yīng)。在一項(xiàng)2023年的研究中,85%的AI應(yīng)用對(duì)響應(yīng)時(shí)間的要求在毫秒級(jí)以?xún)?nèi)。SRE需要確保相關(guān)系統(tǒng)具有足夠的性能和低延遲,以滿(mǎn)足這些實(shí)時(shí)性要求。
“AI模型管理、數(shù)據(jù)工程、安全性這三點(diǎn)非常重要。”鄭乃東表示。他認(rèn)為,SRE需要掌握AI模型的部署、監(jiān)控和管理技能,確保模型在生產(chǎn)環(huán)境中的穩(wěn)定性和性能,同時(shí)也要增加數(shù)據(jù)工程的能力,確保數(shù)據(jù)、管道的可靠性和數(shù)據(jù)質(zhì)量,以支持AI系統(tǒng)的正常運(yùn)行。此外,AI系統(tǒng)可能面臨新的安全威脅,SRE還應(yīng)該關(guān)注AI模型和數(shù)據(jù)的安全性,防止內(nèi)部敏感數(shù)據(jù)泄露和受到攻擊。
國(guó)內(nèi)SRE產(chǎn)業(yè)生態(tài)建設(shè)亟需提速
隨著新質(zhì)生產(chǎn)力發(fā)展步伐加快,企業(yè)數(shù)字化轉(zhuǎn)型逐漸走向深水區(qū)。在這一過(guò)程中,構(gòu)建穩(wěn)定、可靠且高性能的基礎(chǔ)設(shè)施至關(guān)重要。SRE作為基礎(chǔ)設(shè)施戰(zhàn)略的關(guān)鍵組成部分,為業(yè)界提供了實(shí)現(xiàn)先進(jìn)基礎(chǔ)設(shè)施策略的關(guān)鍵思路。
然而,業(yè)內(nèi)人士普遍認(rèn)為,國(guó)內(nèi)SRE產(chǎn)業(yè)生態(tài)建設(shè)仍然面臨人才短缺、技術(shù)積累不足、文化轉(zhuǎn)型難、工具和平臺(tái)集成難等多重挑戰(zhàn)。以人才建設(shè)為例,SRE是一個(gè)相對(duì)較新的領(lǐng)域,具備相關(guān)技能和經(jīng)驗(yàn)的人才供不應(yīng)求,根據(jù)2023年的數(shù)據(jù)顯示,中國(guó)SRE工程師的供需缺口超過(guò)30%。這導(dǎo)致企業(yè)在招聘和培養(yǎng)SRE工程師時(shí)面臨困難。
第六期信創(chuàng)工程師高級(jí)研修班現(xiàn)場(chǎng)
“相比國(guó)外,我國(guó)在SRE實(shí)踐上的技術(shù)積累相對(duì)較少,很多企業(yè)缺乏成熟的SRE實(shí)施經(jīng)驗(yàn)和最佳實(shí)踐指導(dǎo)。而與國(guó)際上對(duì)比,約60%的國(guó)外大型企業(yè)已經(jīng)實(shí)施了成熟的SRE實(shí)踐。”鄭乃東坦言。
為緩解人才短缺的問(wèn)題,越來(lái)越多的培訓(xùn)機(jī)構(gòu)正在開(kāi)設(shè)SRE相關(guān)課程。鴻雪科技便是其中之一。其培訓(xùn)涵蓋了SRE的各個(gè)維度,包括自動(dòng)化、可觀測(cè)性、AIOps、平臺(tái)工程、高可用、災(zāi)備等,確保學(xué)員能夠全面掌握SRE所需的各項(xiàng)技能。講師團(tuán)隊(duì)皆為行業(yè)內(nèi)資深SRE專(zhuān)家,不僅具備豐富的SRE實(shí)踐經(jīng)驗(yàn),還參與過(guò)許多大型項(xiàng)目的實(shí)施,能夠提供深刻的洞見(jiàn)和實(shí)用的建議。據(jù)統(tǒng)計(jì),2023年參加了專(zhuān)業(yè)SRE培訓(xùn)的企業(yè)系統(tǒng)可靠性提升20%,運(yùn)維效率提升15%。
“SRE人才保障了AI以及所有業(yè)務(wù)系統(tǒng)生產(chǎn)環(huán)境的可靠性和性能,通過(guò)自動(dòng)化和可觀測(cè)性減少宕機(jī)風(fēng)險(xiǎn)。他們確保所有服務(wù)在高并發(fā)情況下穩(wěn)定運(yùn)行,是AI系統(tǒng)和所有其他業(yè)務(wù)的‘守護(hù)者’。SRE團(tuán)隊(duì)的存在能夠?qū)⑾到y(tǒng)宕機(jī)時(shí)間減少50%以上。”鄭乃東強(qiáng)調(diào)。他指出,算法和數(shù)據(jù)提供智能和支持,SRE確保系統(tǒng)可靠運(yùn)行,三者共同協(xié)作才能實(shí)現(xiàn)AI系統(tǒng)的全面成功。