【摘要】本文分析了災(zāi)難恢復(fù)對(duì)企業(yè)的重要性,梳理了災(zāi)難恢復(fù)資源要素、能力等級(jí)、關(guān)鍵指標(biāo)、原則、常用方式等知識(shí)。對(duì)于各種技術(shù)和實(shí)現(xiàn)將在后續(xù)的系列文章中逐一深度解析,歡迎持續(xù)關(guān)注。
【作者】張志強(qiáng),某大型制造企業(yè)IT基礎(chǔ)設(shè)施部高級(jí)經(jīng)理
概述
在大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等新技術(shù)的發(fā)展下,我們已經(jīng)從信息時(shí)代邁入數(shù)字化時(shí)代。
信息技術(shù)已成為最活躍的生產(chǎn)力要素,促使生產(chǎn)模式發(fā)生重大的變革,引發(fā)互聯(lián)網(wǎng)經(jīng)濟(jì)蓬勃發(fā)展。作為企業(yè)數(shù)字化轉(zhuǎn)型的基礎(chǔ)與支撐,得到了企業(yè)高層的高度重視。
隨著數(shù)字化在各個(gè)企業(yè)的深耕,服務(wù)于大眾吃、喝、住、行、用等多個(gè)方面,每天源源不斷的產(chǎn)生巨大的數(shù)據(jù)量,為企業(yè)的運(yùn)營(yíng)提供有力的決策,數(shù)據(jù)已經(jīng)成為決定企業(yè)命運(yùn)的核心資產(chǎn)。數(shù)據(jù)量呈指數(shù)級(jí)的增長(zhǎng)已經(jīng)成為常態(tài),數(shù)據(jù)備份和災(zāi)難恢復(fù)就成為炙手可熱的主題,也是信息安全技術(shù)領(lǐng)域中的一個(gè)重要的研究方向和發(fā)展重點(diǎn)。
2020年至今,全球勒索事件、數(shù)據(jù)泄漏等安全事件層出不窮,呈現(xiàn)逐年上升趨勢(shì)。據(jù)不完全統(tǒng)計(jì),受損失的企業(yè)達(dá)到數(shù)萬(wàn)家,造成的直接經(jīng)濟(jì)損失數(shù)以億計(jì)。僅2018年上半年,全球每天有超過(guò)2500萬(wàn)條個(gè)人數(shù)據(jù)遭到入侵或泄露,涉及金融、醫(yī)療、制造等多個(gè)行業(yè)。直至現(xiàn)在,越來(lái)越多的網(wǎng)絡(luò)安全事件爆發(fā),黑客攻擊手法也越來(lái)越復(fù)雜和多樣化。面對(duì)如何嚴(yán)峻的形勢(shì),我們亟需構(gòu)建一套屬于自己的災(zāi)難恢復(fù)架構(gòu),構(gòu)建企業(yè)最后一道生命線。
什么是災(zāi)難恢復(fù)?
災(zāi)難恢復(fù)聽起來(lái)有點(diǎn)高大上,不好理解,其實(shí)它有個(gè)最基礎(chǔ)的元素,也是管理員定期都會(huì)做的,就是數(shù)據(jù)備份。我們做數(shù)據(jù)備份的目的就是防止系統(tǒng)出現(xiàn)操作失誤或者系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失時(shí)候,可以迅速的恢復(fù)數(shù)據(jù),恢復(fù)生產(chǎn)。而災(zāi)難恢復(fù)要稍微復(fù)雜一些,除了考慮數(shù)據(jù)本身,還要考慮硬件、軟件和應(yīng)用自身,是涵蓋面更廣的業(yè)務(wù)連續(xù)性規(guī)劃的一部分,其核心是對(duì)企業(yè)的災(zāi)難性風(fēng)險(xiǎn)做評(píng)估、防范,特別是對(duì)關(guān)鍵性業(yè)務(wù)數(shù)據(jù)、流程予以及時(shí)記錄、貝恩和保護(hù)。翻譯成大白話就是災(zāi)難發(fā)生后,可以迅速將生產(chǎn)平臺(tái)恢復(fù)到正常運(yùn)營(yíng)的能力。
災(zāi)難恢復(fù)的重要性?
災(zāi)難恢復(fù)的重要性不言而喻,為什么稱它為企業(yè)經(jīng)營(yíng)的最后一根稻草,絕不是危言聳聽。
給大家簡(jiǎn)述一個(gè)現(xiàn)實(shí)的例子,說(shuō)明一下災(zāi)難恢復(fù)的重要性。
前面已經(jīng)介紹過(guò)了,目前的勒索病毒已經(jīng)瞄準(zhǔn)金融業(yè)、制造業(yè)及醫(yī)療等重要行業(yè)。我的一個(gè)朋友是某零部件產(chǎn)品制造企業(yè)的安全負(fù)責(zé)人,學(xué)歷高、技術(shù)牛、經(jīng)驗(yàn)豐富,典型的I T界“高、富、帥”。但是他在2018年經(jīng)歷了人生第一個(gè)重大安全事件,讓他終生難忘,甚至回想起來(lái)還冒一身冷汗。
當(dāng)天他正在開會(huì),突然電話響起,對(duì)方告知公司的一個(gè)銷售系統(tǒng)宕機(jī),服務(wù)起不來(lái),當(dāng)時(shí)沒(méi)有意識(shí)到時(shí)大事,只是說(shuō)會(huì)后過(guò)去支持。到現(xiàn)場(chǎng)才發(fā)現(xiàn),所有銷售的數(shù)據(jù)庫(kù)被加密,只留下txt勒索文件,告知如何交付贖金進(jìn)行解密,此時(shí)他才意識(shí)到大事不妙。經(jīng)過(guò)全系統(tǒng)排查,共發(fā)現(xiàn)中毒系統(tǒng)30多套,整個(gè)生產(chǎn)瞬間停滯。
幸虧大多數(shù)系統(tǒng)都進(jìn)行了數(shù)據(jù)備份,除個(gè)別系統(tǒng)需要手動(dòng)錄單外,其余的系統(tǒng)均已通過(guò)備份系統(tǒng)恢復(fù),將損失降低到最小。
天有不測(cè)風(fēng)云,人有旦夕禍福,通過(guò)這個(gè)血淋淋的案例,大家應(yīng)該意識(shí)到災(zāi)難恢復(fù)(不僅僅是數(shù)據(jù)備份)對(duì)IT人員的重要性和企業(yè)最后一根救命稻草的含義了。
災(zāi)難恢復(fù)要點(diǎn)
任何系統(tǒng)在設(shè)計(jì)和建設(shè)階段都會(huì)有相關(guān)的指標(biāo)和規(guī)格約束,確保系統(tǒng)的完整性、穩(wěn)定性和可用性。
災(zāi)難恢復(fù)資源要素
根據(jù)大多數(shù)的專家經(jīng)驗(yàn),總結(jié)了一些信息系統(tǒng)災(zāi)難恢復(fù)管理規(guī)范中,關(guān)于災(zāi)難恢復(fù)資源的描述,僅供參考,災(zāi)備負(fù)責(zé)人可以根據(jù)企業(yè)實(shí)際需求進(jìn)行斟酌:
備用的基礎(chǔ)設(shè)施:
Ø主用基礎(chǔ)設(shè)施以外的備用基礎(chǔ)設(shè)施選址尤為重要,無(wú)論從距離上、備份線路上還是政策上都是考慮的重點(diǎn);
Ø基礎(chǔ)設(shè)施建設(shè)符合國(guó)家機(jī)房建設(shè)標(biāo)準(zhǔn),具體級(jí)別參考主機(jī)房;
Ø備用基礎(chǔ)設(shè)施具備完善的工作輔助設(shè)施和生活設(shè)施。
數(shù)據(jù)備份系統(tǒng):
Ø根據(jù)業(yè)務(wù)系統(tǒng)特性,提前定義數(shù)據(jù)備份的范圍和頻率;
Ø定期整體RPO和RTO指標(biāo),分解到不同的業(yè)務(wù)系統(tǒng);
Ø充分考慮數(shù)據(jù)備份系統(tǒng)與現(xiàn)有生產(chǎn)系統(tǒng)的兼容性;
Ø選擇成熟穩(wěn)定的數(shù)據(jù)備份系統(tǒng),同時(shí)一定要考慮后期服務(wù)支持。
網(wǎng)絡(luò)系統(tǒng):
Ø備用基礎(chǔ)設(shè)施網(wǎng)絡(luò)通信系統(tǒng)的選擇,建議與主用基礎(chǔ)設(shè)施保持一致;
Ø備用通信線路要冗余,避免單點(diǎn)故障;
Ø要定期對(duì)備用通信線路的使用情況進(jìn)行監(jiān)控。
災(zāi)難恢復(fù)預(yù)案:
Ø要提前做好災(zāi)難恢復(fù)預(yù)案:
Ø根據(jù)業(yè)務(wù)實(shí)際需求提出備份的管理要求;
Ø制定備份恢復(fù)流程;
Ø定期進(jìn)行培訓(xùn)和演練。
運(yùn)維管理:
Ø定義運(yùn)維管理組織架構(gòu);
Ø制定運(yùn)維管理制度;
Ø制定相關(guān)的考核指標(biāo)。
技術(shù)支持能力:
Ø培養(yǎng)自身的技術(shù)支持能力;
Ø引入專業(yè)的災(zāi)備團(tuán)隊(duì)進(jìn)行支持;
Ø軟件、硬件和網(wǎng)絡(luò)等方面的技術(shù)支持要求。
災(zāi)難恢復(fù)能力等級(jí)
災(zāi)難恢復(fù)根據(jù)投資和業(yè)務(wù)需求的不同,會(huì)采用不通的技術(shù)實(shí)現(xiàn),自然就會(huì)有不同的災(zāi)難恢復(fù)能力之分。以下結(jié)合自身總結(jié)的一些災(zāi)難恢復(fù)架構(gòu)方案經(jīng)驗(yàn)對(duì)其進(jìn)行等級(jí)劃分,僅供參考。
災(zāi)難恢復(fù)關(guān)鍵指標(biāo)
容災(zāi)恢復(fù)的關(guān)鍵指標(biāo)是SLA的前提條件,不同企業(yè)不同要求,個(gè)人經(jīng)驗(yàn)僅供參考:
災(zāi)難恢復(fù)架構(gòu)
本例以曾經(jīng)做過(guò)的災(zāi)備案例為范本進(jìn)行說(shuō)明,利用兩地?cái)?shù)據(jù)中心進(jìn)行數(shù)據(jù)級(jí)別的災(zāi)備。
災(zāi)難恢復(fù)的原則
為保證災(zāi)難恢復(fù)架構(gòu)涉及更符合業(yè)務(wù)需求,更貼合企業(yè)實(shí)際情況,應(yīng)遵守以下原則:
常用災(zāi)難恢復(fù)方式
在工業(yè)互聯(lián)網(wǎng)的大背景下,制造行業(yè)不管是大企業(yè)還是小企業(yè)在日常運(yùn)營(yíng)中都需要服務(wù)器、網(wǎng)絡(luò)等基礎(chǔ)架構(gòu)來(lái)部署業(yè)務(wù),保持業(yè)務(wù)的穩(wěn)定持續(xù)運(yùn)行。制定和執(zhí)行一個(gè)可用的災(zāi)難恢復(fù)方案就顯得至關(guān)重要。一旦發(fā)生不可預(yù)知的災(zāi)難,尤其數(shù)據(jù)丟失造成的損失是無(wú)法計(jì)算的。
隨著災(zāi)備技術(shù)的發(fā)展,各種災(zāi)備方式突顯,如本地災(zāi)備、異地災(zāi)備、云災(zāi)備、混合災(zāi)備等等方式。根據(jù)不同的災(zāi)備需求和業(yè)務(wù)重要程度,所采用的災(zāi)備技術(shù)也是不同的。從開源的到商用的,從新興的到成熟的,各有千秋,各有不同。以下舉三個(gè)常用災(zāi)備方式:
本地:
本地備份按照上文所說(shuō)的要素和等級(jí)來(lái)看,投資最小、效果較差,但是適應(yīng)小型企業(yè)和對(duì)數(shù)據(jù)完整性要求不高的場(chǎng)景。可以通過(guò)軟件自帶的數(shù)據(jù)復(fù)制功能、底層存儲(chǔ)的remote copy功能進(jìn)行本地存儲(chǔ)間備份。數(shù)據(jù)可以快速恢復(fù),但是備份周期內(nèi)的數(shù)據(jù)無(wú)法恢復(fù),有丟失數(shù)據(jù)風(fēng)險(xiǎn)。同時(shí)如果本地基礎(chǔ)設(shè)施被破壞,已造成全部數(shù)據(jù)丟失或失效。
兩地三中心:
我們知道金融行業(yè)的數(shù)據(jù)幾乎沒(méi)有丟失的情況,那是因?yàn)樗麄冊(cè)跒?zāi)備方案上煞費(fèi)苦心。為了確保數(shù)據(jù)中心的可靠性,基本都會(huì)在不同區(qū)域各建一個(gè)數(shù)據(jù)中心用來(lái)放置服務(wù)器和存儲(chǔ)數(shù)據(jù),實(shí)現(xiàn)主備分離。正常情況下主中心工作,另外兩個(gè)作為災(zāi)備中心,三個(gè)數(shù)據(jù)中心的數(shù)據(jù)實(shí)時(shí)同步更新。確保所有服務(wù)器不會(huì)放在同一個(gè)地方,就算戰(zhàn)爭(zhēng)、地震等損毀了兩個(gè)中心,也不會(huì)影響業(yè)務(wù)的正常辦理。萬(wàn)一發(fā)生極端情況三個(gè)中心全部遭到破壞,還有離線備份的數(shù)據(jù),數(shù)據(jù)安全性得到保障。
混合云:
隨著云計(jì)算的發(fā)展,混合云架構(gòu)越來(lái)越被企業(yè)所重視。利用混合云架構(gòu)實(shí)現(xiàn)云災(zāi)備是個(gè)不錯(cuò)的選擇。云災(zāi)備作為災(zāi)備領(lǐng)域的一種新的災(zāi)備方式,正在被更多的企業(yè)所接受。通過(guò)引入專業(yè)的云災(zāi)備服務(wù)商,按需付費(fèi)使用災(zāi)備服務(wù),實(shí)現(xiàn)線上線下相結(jié)合??梢岳梅?wù)提供商的優(yōu)勢(shì)技術(shù)資源、豐富的災(zāi)備項(xiàng)目經(jīng)驗(yàn)和成熟的運(yùn)維管理流程,快速實(shí)現(xiàn)業(yè)務(wù)的災(zāi)備目標(biāo),降低災(zāi)備系統(tǒng)的運(yùn)維成本和災(zāi)備系統(tǒng)的總體擁有成本。
災(zāi)難恢復(fù)的思考
運(yùn)維一個(gè)完整的災(zāi)備系統(tǒng)離不開技術(shù)與管理,正所謂“三分技術(shù),七分管理”。要保障災(zāi)備系統(tǒng)的穩(wěn)定性和數(shù)據(jù)的安全性,除了有必要的技術(shù)手段支持以外,還要考慮組織和管理的因素,也就是人、流程與制度的因素。
組建合理的災(zāi)備組織架構(gòu)
災(zāi)備作為企業(yè)的最后一道防火墻一直以來(lái)都是IT領(lǐng)導(dǎo)最重視的領(lǐng)域,會(huì)在企業(yè)內(nèi)設(shè)立專門的災(zāi)備小組或者委員會(huì),制定集團(tuán)整體災(zāi)備系統(tǒng)的解決方案,并負(fù)責(zé)災(zāi)備工作的指導(dǎo)與推廣。
同時(shí)在企業(yè)內(nèi)會(huì)設(shè)立災(zāi)備架構(gòu)師,對(duì)集團(tuán)災(zāi)備工作進(jìn)行具體的規(guī)劃與執(zhí)行,確保企業(yè)核心數(shù)據(jù)的可用性、完整性和可靠性。
流程化管控
企業(yè)的災(zāi)備系統(tǒng)按照規(guī)劃建設(shè)完成,這只是數(shù)據(jù)安全保障的第一步,或者說(shuō)是前提。之后大部分的工作都是在系統(tǒng)的運(yùn)營(yíng)中。結(jié)合PDCA,通過(guò)迭代更新的方法論,對(duì)災(zāi)難恢復(fù)策略和運(yùn)營(yíng)進(jìn)行持續(xù)化改進(jìn),增強(qiáng)企業(yè)數(shù)據(jù)災(zāi)備及應(yīng)用級(jí)災(zāi)備的整體能力。
正所謂“制度管人,流程管事”?;诹鞒袒芾?,災(zāi)備團(tuán)隊(duì)可以根據(jù)不同的業(yè)務(wù)需求、備份場(chǎng)景進(jìn)行快速響應(yīng)和精確處理,為企業(yè)核心數(shù)據(jù)安全提供保障。
結(jié)束語(yǔ)
在災(zāi)難備份系統(tǒng)建設(shè)中,數(shù)據(jù)備份是關(guān)鍵,也是基礎(chǔ),做好災(zāi)難備份建設(shè),通過(guò)有效的災(zāi)難恢復(fù)機(jī)制,以確保企業(yè)業(yè)務(wù)連續(xù)性,減少因?yàn)閿?shù)據(jù)丟失等給企業(yè)帶來(lái)的損失。本文簡(jiǎn)述了災(zāi)備的重要性,并未深度解析災(zāi)備的各種技術(shù)和實(shí)現(xiàn),在后續(xù)發(fā)布在社區(qū)的文章中將陸續(xù)更新。