備份對(duì)于企業(yè)業(yè)務(wù)來(lái)說(shuō)至關(guān)重要,但備份建設(shè)中常出現(xiàn)一些認(rèn)識(shí)盲區(qū)和誤區(qū),以及一些難點(diǎn)和坑點(diǎn),以下內(nèi)容來(lái)自社區(qū)日常交流探討,整理于此供大家參考。來(lái)自社區(qū)會(huì)員李志剛、Jerry Lee等分享。
1.混淆備份和歸檔的區(qū)別
有些用戶經(jīng)常容易把備份和歸檔混淆,最初的需求不明確就會(huì)導(dǎo)致后期的實(shí)施方案走樣,用起來(lái)各種問(wèn)題,后期維護(hù)也是非常麻煩。
1.先從對(duì)應(yīng)場(chǎng)景來(lái)說(shuō)
一般情況下,我們把用于恢復(fù)目的的數(shù)據(jù)保留稱作備份。這類數(shù)據(jù)一般變化較大,保留時(shí)限較短。僅僅是為了應(yīng)對(duì)數(shù)據(jù)丟失來(lái)設(shè)計(jì)的。
而歸檔,一般對(duì)應(yīng)的是長(zhǎng)期存放,數(shù)據(jù)變化量相對(duì)較小,比較多的場(chǎng)景是基于法律法規(guī)要求的以年為單位的數(shù)據(jù)保留,應(yīng)對(duì)的數(shù)據(jù)審查等操作。
2.再?gòu)膫浞蒈浖O(shè)計(jì)的角度來(lái)看
從備份軟件的角度來(lái)看,各個(gè)備份軟件在各自的系統(tǒng)中都有備份和歸檔一說(shuō),而且主要還是針對(duì)文件系統(tǒng)備份的時(shí)候提及的較多,就TSM和NBU對(duì)比來(lái)看,TSM有backup和archive這樣的名詞,而NBU也有user backup和user archive這樣的備份類型。
這里以TSM為例,如果是數(shù)據(jù)備份,備份軟件里對(duì)應(yīng)的有數(shù)據(jù)保留的活動(dòng)版本、非活動(dòng)版本、刪除版本以及非活動(dòng)版本和刪除版本的保存期限等參數(shù)(copygroup的verexistes、verdelete、retextra、retonly四個(gè)參數(shù))。能比較靈活的應(yīng)對(duì)備份數(shù)據(jù)的各種需求點(diǎn)。
對(duì)應(yīng)歸檔來(lái)說(shuō),沒(méi)有非活動(dòng)版本的概念,每個(gè)版本都是活動(dòng)的,只能以時(shí)間來(lái)界定(copygroup的retver參數(shù))。
針對(duì)剛剛談到的歸檔和備份的區(qū)別,根據(jù)第一點(diǎn)提到的需求差別,可以靈活的選擇即可,比如:
對(duì)于大多數(shù)的普通文件、sql數(shù)據(jù)庫(kù)、IBM domino、MS exchange等數(shù)據(jù)保留都可以通過(guò)上面說(shuō)的副本組參數(shù)來(lái)靈活配置。
對(duì)于db2和oracle分別由程序自身來(lái)控制,db2使用db2adutl,oracle使用rman。
當(dāng)然,也有一些特殊情況,比如db2的歸檔日志存放,或者sap的數(shù)據(jù)保留也會(huì)用的歸檔模式,這里根據(jù)備份和歸檔的設(shè)計(jì)差別,也可以解釋的通。
3.最后從數(shù)據(jù)的特點(diǎn)來(lái)看
一般情況下數(shù)據(jù)變化大的建議用戶選用備份;而數(shù)據(jù)基本不變化,且需要長(zhǎng)期保留的數(shù)據(jù)我建議用戶一次或者定期歸檔長(zhǎng)時(shí)間保留。
2.混淆容災(zāi)與備份的區(qū)別
1.容災(zāi)備份的區(qū)別
容災(zāi)(Disaster Tolerance):就是在上述的災(zāi)難發(fā)生時(shí),在保證生產(chǎn)系統(tǒng)的數(shù)據(jù)盡量少丟失的情況下,保持生存系統(tǒng)的業(yè)務(wù)不間斷地運(yùn)行。
容錯(cuò)(Fault Tolerance):指在計(jì)算機(jī)系統(tǒng)的軟件、硬件發(fā)生故障時(shí),保證計(jì)算機(jī)系統(tǒng)中仍能工作的能力。
區(qū)別:容錯(cuò)可以通過(guò)硬件冗余、錯(cuò)誤檢查和熱交換再加上特殊的軟件來(lái)實(shí)現(xiàn),而容災(zāi)必須通過(guò)系統(tǒng)冗余、災(zāi)難檢測(cè)和系統(tǒng)遷移等技術(shù)來(lái)實(shí)現(xiàn)。當(dāng)設(shè)備故障不能通過(guò)容錯(cuò)機(jī)制解決而導(dǎo)致系統(tǒng)宕機(jī)時(shí),這種故障的解決就屬于容災(zāi)的范疇。
什么是災(zāi)難恢復(fù)(Disaster Recovery):指的是在災(zāi)難發(fā)生后,將系統(tǒng)恢復(fù)到正常運(yùn)作的能力。
區(qū)別:容災(zāi)強(qiáng)調(diào)的是在災(zāi)難發(fā)生時(shí),保證系統(tǒng)業(yè)務(wù)持續(xù)不間斷地運(yùn)行的能力,而災(zāi)難恢復(fù)強(qiáng)調(diào)的災(zāi)難之后,系統(tǒng)的恢復(fù)能力?,F(xiàn)在的容災(zāi)系統(tǒng)都包含著災(zāi)難恢復(fù)的功能,所以本文的討論除了包括容災(zāi)方面的內(nèi)容,還包括了災(zāi)難恢復(fù)的部分內(nèi)容。
容災(zāi)系統(tǒng)在企業(yè)中給與數(shù)據(jù)安全系數(shù)相當(dāng)高的保障,但是容災(zāi)系統(tǒng)倒是是什么,他們是什么意思?恐怕連正在使用容災(zāi)備份的網(wǎng)絡(luò)管理人員都不能解釋。本文用最淺顯的語(yǔ)言給大家解釋容災(zāi)備份到底是什么。
2.容災(zāi)和備份的目的不同
容災(zāi)系統(tǒng)的目的在于保證系統(tǒng)數(shù)據(jù)和服務(wù)的“在線性”,即當(dāng)系統(tǒng)發(fā)生故障時(shí),仍然能夠正常地向網(wǎng)絡(luò)系統(tǒng)提供數(shù)據(jù)和服務(wù),以使系統(tǒng)不致停頓。
而容災(zāi)備份技術(shù)的目的與此并不相同,備份是“將在線數(shù)據(jù)轉(zhuǎn)移成離線數(shù)據(jù)的過(guò)程”,其目的在于應(yīng)付系統(tǒng)數(shù)據(jù)中的邏輯錯(cuò)誤和歷史數(shù)據(jù)保存。
所以,在各種容錯(cuò)技術(shù)非常豐富的今天,備份系統(tǒng)仍然是不可替代的。
3.備份是基石
備份是指為防止系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失,而將全系統(tǒng)或部分?jǐn)?shù)據(jù)集合從應(yīng)用主機(jī)的硬盤(pán)或陣列復(fù)制到其它的存儲(chǔ)介質(zhì)的過(guò)程。
備份是數(shù)據(jù)高可用的最后一道防線,其目的是為了系統(tǒng)數(shù)據(jù)崩潰時(shí)能夠恢復(fù)數(shù)據(jù)。
4.容災(zāi)不可少
那么建設(shè)了備份系統(tǒng),是否就不需要容災(zāi)備份系統(tǒng)?這還要看業(yè)務(wù)部門(mén)對(duì)RTO(恢復(fù)所需的時(shí)間指標(biāo))/RPO(能夠恢復(fù)到的最新?tīng)顟B(tài))指標(biāo)的期望值,如果允許1TB的數(shù)據(jù)庫(kù)RTO=8小時(shí),RPO=1天,那備份系統(tǒng)就能滿足要求。同時(shí),備份的目的在于應(yīng)付系統(tǒng)數(shù)據(jù)中的邏輯錯(cuò)誤和歷史數(shù)據(jù)保存。只能夠滿足數(shù)據(jù)丟失、數(shù)據(jù)破壞時(shí)的數(shù)據(jù)恢復(fù)目的,而不能提供實(shí)時(shí)的業(yè)務(wù)接管功能。
因此容災(zāi)系統(tǒng)對(duì)于某些關(guān)鍵業(yè)務(wù)而言也是必不可少的。人們談及容災(zāi)備份往往是針對(duì)當(dāng)生產(chǎn)系統(tǒng),不能正常工作時(shí),其業(yè)務(wù)可由容災(zāi)系統(tǒng)接替這些業(yè)務(wù),繼續(xù)進(jìn)行正常的工作。
能夠提供很好的RTO和RPO指標(biāo)。同時(shí)遠(yuǎn)程容災(zāi)系統(tǒng)具備應(yīng)付各種災(zāi)難,特別是區(qū)域性與毀滅性災(zāi)難的能力,具備較為完善的數(shù)據(jù)保護(hù)與災(zāi)難恢復(fù)功能,保證災(zāi)難降臨時(shí)數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性,并在最短時(shí)間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng)的正常運(yùn)行,將損失降到最小。
5.容災(zāi)不能替換備份
容災(zāi)系統(tǒng)會(huì)完整地把生產(chǎn)系統(tǒng)的任何變化復(fù)制到容災(zāi)端去,包括不想讓它復(fù)制的工作,比如不小心把計(jì)費(fèi)系統(tǒng)內(nèi)的用戶信息表刪除了,同時(shí)容災(zāi)端的用戶信息表也會(huì)被完整地刪除。如果是同步容災(zāi),那容災(zāi)端同時(shí)就刪除了;如果是異步容災(zāi),那容災(zāi)端在數(shù)據(jù)異步復(fù)制的間隔內(nèi)就會(huì)被刪除。這時(shí)就需要從備份系統(tǒng)中取出最新備份,來(lái)恢復(fù)被錯(cuò)誤刪除的信息。因此容災(zāi)系統(tǒng)的建設(shè)不能替代備份系統(tǒng)的建設(shè)。
6.規(guī)劃企業(yè)安全保障體系考慮的因素
對(duì)于企業(yè)而言到底應(yīng)該如何建設(shè)自己的災(zāi)備系統(tǒng),是只建設(shè)備份系統(tǒng)、還是只建設(shè)容災(zāi)系統(tǒng)、還是需要二者同時(shí)建設(shè)、或者是分步驟的建設(shè),誰(shuí)先誰(shuí)后等問(wèn)題,主要根據(jù)業(yè)務(wù)的需求而定:
(1)需要防范的災(zāi)難類型:
企業(yè)信息系統(tǒng)可能遇到的災(zāi)難類型及其發(fā)生的比例如下:
對(duì)于“人為錯(cuò)誤”、“軟件損壞和程序錯(cuò)誤”加上“病毒”等這些都稱為邏輯錯(cuò)誤,占總故障的56%,這些錯(cuò)誤只能通過(guò)備份系統(tǒng)才能防范;
對(duì)于“硬件和系統(tǒng)故障”以及“自然災(zāi)難”等故障可以通過(guò)在容災(zāi)系統(tǒng)(或者異地備份)來(lái)防范,占總故障率的44%。
(2)允許的RTO和RPO指標(biāo)
從技術(shù)上看,衡量容災(zāi)系統(tǒng)有兩個(gè)主要指標(biāo):RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了當(dāng)災(zāi)難發(fā)生時(shí)允許丟失的數(shù)據(jù)量;而RTO則代表了系統(tǒng)恢復(fù)的時(shí)間。
一般而言:容災(zāi)系統(tǒng)能夠提供較好的RTO和RPO指標(biāo)。
(3)系統(tǒng)投資
總的說(shuō)來(lái),建設(shè)備份系統(tǒng)的投資遠(yuǎn)比建設(shè)標(biāo)準(zhǔn)意義的容災(zāi)系統(tǒng)的投資小得多:
備份系統(tǒng)的投資規(guī)模一般在幾百萬(wàn);
而最節(jié)省的一套容災(zāi)系統(tǒng)投資都將上千萬(wàn);
7.常用的災(zāi)備組合方式
基于以上原因,業(yè)界在災(zāi)備系統(tǒng)的建設(shè)上一般按照以下幾種方式:
建設(shè)機(jī)房?jī)?nèi)的本地備份系統(tǒng)
建設(shè)異地的備份系統(tǒng)
該方式可以備份系統(tǒng)的價(jià)格滿足備份和異地容災(zāi)功能,能夠避免主生產(chǎn)中心由于地震、火災(zāi)或其他災(zāi)害造成的數(shù)據(jù)丟失。
備份系統(tǒng)+異地容災(zāi)系統(tǒng)
這是一個(gè)較為理想化的容災(zāi)系統(tǒng)一體化解決方案,能夠在很大程度上避免各種可能的錯(cuò)誤。
3、用雙機(jī)、陣列復(fù)制等系統(tǒng)冗余替代數(shù)據(jù)備份
雙機(jī)雙柜可實(shí)現(xiàn)服務(wù)器和存儲(chǔ)的高可用性,保障業(yè)務(wù)持續(xù)運(yùn)行,但絕不能替代備份,因?yàn)殡p機(jī)雙柜能解決數(shù)據(jù)的物理錯(cuò)誤,例如:服務(wù)器或存儲(chǔ)故障,但解決不了數(shù)據(jù)的邏輯錯(cuò)誤,例如:病毒,人為誤刪除數(shù)據(jù)(rm–f)等。
4、寫(xiě)腳本備份數(shù)據(jù)庫(kù)代替數(shù)據(jù)備份軟件
1個(gè)2個(gè)數(shù)據(jù)庫(kù)還能操作過(guò)來(lái),假如有100個(gè)數(shù)據(jù)庫(kù)呢?除了數(shù)據(jù)庫(kù),其他的都要寫(xiě)腳本嗎(除非是要開(kāi)發(fā)個(gè)備份軟件)?非常不建議這樣操作,因?yàn)檫@樣做問(wèn)題太多了,如果有條件,就不要再人為寫(xiě)腳本備份了,我碰到過(guò)一個(gè)內(nèi)部同行,一直用腳本備份的Oracle數(shù)據(jù)庫(kù),等恢復(fù)的時(shí)候發(fā)現(xiàn)每天備份的都是0KB,這才開(kāi)會(huì)討論腳本備份的沒(méi)有數(shù)據(jù)驗(yàn)證功能。需要一套專業(yè)的備份軟件來(lái)做這件事情,否則可能災(zāi)難重現(xiàn)。
5、操作系統(tǒng)不用備份?
有人說(shuō),系統(tǒng)備份什么?壞了就重裝唄,數(shù)據(jù)不丟就行,首先大家應(yīng)該都用過(guò)Ghost軟件,容易不?太容易了!其實(shí)Unix、Linux、Windows等系統(tǒng)備份恢復(fù)如果學(xué)會(huì)使用不比Ghost難多少,光盤(pán)啟動(dòng),找到想恢復(fù)的時(shí)間點(diǎn),分分鐘系統(tǒng)就恢復(fù)到備份時(shí)的狀態(tài),但我們想一想,如果沒(méi)有系統(tǒng)備份工具,我們要重裝系統(tǒng),然后找驅(qū)動(dòng),安裝軟件,系統(tǒng)優(yōu)化,測(cè)試,這要多久,一個(gè)資深的運(yùn)維技術(shù)6個(gè)小時(shí)你敢承諾系統(tǒng)能上線嗎?我想沒(méi)有人敢保證,我曾經(jīng)看過(guò)一個(gè)工程師為了一個(gè)網(wǎng)卡驅(qū)動(dòng)(非常老的服務(wù)器)花了一上午的時(shí)間。而且有的時(shí)候當(dāng)時(shí)部署系統(tǒng)的工程師已經(jīng)不在了,系統(tǒng)裝上了,應(yīng)用沒(méi)人會(huì)裝。想想現(xiàn)在我們的技術(shù)人員是不是大半夜的還有在機(jī)房維護(hù)操作系統(tǒng)的?運(yùn)維人員忙的要死,天天救火,但技術(shù)又沒(méi)什么長(zhǎng)進(jìn),想想時(shí)間都去哪了。
6、想用CDP(數(shù)據(jù)保護(hù))代替?zhèn)浞?/strong>
不論是True CDP還是CDP(就是業(yè)內(nèi)說(shuō)的真假CDP)都代替不了備份。我們都知道備份都是放在系統(tǒng)空閑時(shí)做,除了游戲企業(yè)外其他大多數(shù)企業(yè)都會(huì)選擇在夜里備份,因?yàn)閭浞輹?huì)占用大量系統(tǒng)資源,系統(tǒng)繁忙的時(shí)候是不可以備份的,(除非你想讓用戶罵)。CDP顧名思義持續(xù)數(shù)據(jù)保護(hù),不論真假CDP,24小時(shí)不間斷對(duì)系統(tǒng)IO讀取,對(duì)系統(tǒng)的性能影響可想而知,CDP通常嵌入數(shù)據(jù)中心關(guān)鍵業(yè)務(wù)應(yīng)用的I/O路徑中,是一個(gè)I/O聚散點(diǎn),其任何不穩(wěn)定都可能導(dǎo)致關(guān)鍵業(yè)務(wù)停頓。所以CDP只能用在部分業(yè)務(wù)上,增強(qiáng)備份軟件RPO的指標(biāo)參數(shù),而不是替代備份軟件,不會(huì)有企業(yè)傻到所有業(yè)務(wù)都采用CDP保護(hù),而且CDP一定要測(cè)試后方能使用,如果遇到產(chǎn)品問(wèn)題或兼容性問(wèn)題,你的業(yè)務(wù)系統(tǒng)可能宕機(jī)。
7、領(lǐng)導(dǎo)不重視數(shù)據(jù)備份
既然不重視,必然有幾方面的原因。
一種情況是外行領(lǐng)導(dǎo)內(nèi)行,對(duì)于數(shù)據(jù)備份的認(rèn)識(shí)不夠,或者認(rèn)為投資高,而有沒(méi)有回報(bào),導(dǎo)致輕視或者減少數(shù)據(jù)備份方面的投資。只有真正經(jīng)歷過(guò)數(shù)據(jù)事故的人和企業(yè)才會(huì)真切的體會(huì)到數(shù)據(jù)的重要性,沒(méi)出過(guò)事自然不知切膚之痛。
一種情況是難以爭(zhēng)取數(shù)據(jù)安全方面的費(fèi)用,因?yàn)闆](méi)有相關(guān)文件的明文規(guī)定,所以較難獲得這方面的投資,如果有,那就是不做為了。大部分現(xiàn)在都有指導(dǎo)建議,只是備份的規(guī)模可能和投入有不少差距。做好合理的數(shù)據(jù)備份規(guī)劃,提交審批都算盡責(zé)了?,F(xiàn)在不重視的人越來(lái)越少了,還是烏紗帽要緊。
如果你多次申請(qǐng)都沒(méi)有得到回復(fù),那能做的就是盡量自保吧。作為運(yùn)維人員,數(shù)據(jù)安全上你是第一責(zé)任人,出了問(wèn)題肯定不會(huì)找領(lǐng)導(dǎo),先找到你。如果真恢復(fù)不了,你就是替罪羊。所以數(shù)據(jù)備份不備份完全是運(yùn)維人員的事。即使沒(méi)有條件,你也應(yīng)該自己有后路,有辦法將損失降到最低,這是你的職責(zé)。
1.首先,利用手頭的資源盡可能的做備份。做好安全,是竭盡權(quán)利的做好這些。
2.把提交的報(bào)告形成書(shū)面的文檔。得到書(shū)面的回復(fù)。出了問(wèn)題。沒(méi)有你的責(zé)任。
3.準(zhǔn)備好應(yīng)急方案,出現(xiàn)問(wèn)題后哪些可以補(bǔ)救,哪些補(bǔ)救不了。出問(wèn)題之后領(lǐng)導(dǎo)知道痛了需要提交怎樣的申請(qǐng)。
8、不知道如何選擇備份軟件
在今天,主流的備份軟件功能同質(zhì)化,均能承擔(dān)數(shù)據(jù)中心絕大部分?jǐn)?shù)據(jù)備份工作。對(duì)于備份管理員,挑選一款適合自己使用習(xí)慣的備份軟件尤為重要。在長(zhǎng)期的備份系統(tǒng)設(shè)計(jì)與實(shí)施中,建議從三個(gè)方面考量:
1,基于個(gè)人維護(hù)習(xí)慣。適合個(gè)人維護(hù)習(xí)慣的軟件,能夠最大程度的契合對(duì)該軟件的學(xué)習(xí)和使用成本,簡(jiǎn)單點(diǎn)說(shuō)就是——上手難度。
2,基于方案需求。建議按照項(xiàng)目首要、次要、必要需求來(lái)定性挑選備份軟件。再好的軟件,無(wú)法解決當(dāng)前問(wèn)題那也白搭。備份系統(tǒng)相對(duì)復(fù)雜,且是一個(gè)成長(zhǎng)型系統(tǒng),在每個(gè)時(shí)期均有里程碑目標(biāo),只有一步一個(gè)腳印,系統(tǒng)才能健壯成長(zhǎng)。因?yàn)樯婕暗姆椒矫婷娑?,在其建設(shè)初期需要收納匯總各系統(tǒng)的情況和需求,最后集中考慮。作為備份系統(tǒng)的最終維護(hù)管理者,一定要明確當(dāng)前的需求并分清層次,哪些是急需解決的,哪些是可以湊合的,哪些是不用著重考慮的。
3,基于產(chǎn)品售后。對(duì)于產(chǎn)品售后的定位,就和備份系統(tǒng)一樣,一輩子都可能用不上幾次,但要有用的時(shí)候若是沒(méi)有,也是麻煩。對(duì)于主流的備份軟件售后服務(wù)口碑也要了然于心,哪家服務(wù)不錯(cuò)哪家服務(wù)欠佳,任君挑選。
4、一切均以實(shí)際效果為準(zhǔn)。挑選備份軟件不能單純依靠產(chǎn)品參數(shù),不能聽(tīng)著吹得天花亂墜的性能就偏聽(tīng)偏信,綜合而言,是騾子是馬,拉出來(lái)溜溜?;疖嚥皇强客频模Fひ膊皇强看档?。
9、針對(duì)企業(yè)現(xiàn)有的數(shù)據(jù)規(guī)模,不知道如何規(guī)劃存儲(chǔ)類型、容量并設(shè)計(jì)合適的調(diào)度作業(yè)
見(jiàn)過(guò)不少客戶的備份環(huán)境,用起來(lái)資源緊張,捉襟見(jiàn)肘。有的是備份空間不足,被迫修改保留策略。有的是受限客觀環(huán)境,通道不足導(dǎo)致備份窗口加長(zhǎng),最后備份失敗??偠灾?,大都是是初始規(guī)劃設(shè)計(jì)方面準(zhǔn)備不足,導(dǎo)致后期維護(hù)困難??梢詮囊韵聨讉€(gè)點(diǎn)來(lái)考慮:
1.存儲(chǔ)空間確認(rèn)
首先應(yīng)該先匯總,看看當(dāng)前要需要備份的系統(tǒng)有多少套,每套大概有多少數(shù)據(jù)量,最終得到1個(gè)初步的數(shù)據(jù)總量;
其次,應(yīng)該了解并估算整個(gè)備份環(huán)境的增長(zhǎng)量,以及規(guī)劃的年數(shù)。比如,初步估算所有的備份數(shù)據(jù)總量為5T,每年增長(zhǎng)20%,規(guī)劃5年周期。最后的總量應(yīng)該是12.5T左右;
最后,要確認(rèn)保存的周期或保存的版本數(shù)。比如,初步按3個(gè)版本保存,40T的容量應(yīng)該是沒(méi)問(wèn)題的。
2.根據(jù)存儲(chǔ)空間初步確定設(shè)備選型
比如,如果使用物理帶庫(kù),按LTO6的磁帶來(lái)算,14盤(pán)磁帶就夠了,但是考慮到并置組、存儲(chǔ)池以及其他考慮等冗余要求,需要再多設(shè)計(jì)一些磁帶,比如20盤(pán)。然后再考慮到是否要需要需求磁帶循環(huán)使用,那么磁帶庫(kù)的槽位數(shù)量必須要多于20個(gè)。
如果是虛擬磁帶庫(kù),考慮到產(chǎn)品的重刪功能,可以對(duì)應(yīng)的降低有效容量的配置要求?;蛘呷绻谴疟P(pán)存儲(chǔ)池并啟用重刪功能,也可以根據(jù)測(cè)試對(duì)應(yīng)的降低要求。
3.備份窗口的確定
和業(yè)務(wù)系統(tǒng)的負(fù)責(zé)人溝通,了解每個(gè)要備份的業(yè)務(wù)系統(tǒng)的最大備份窗口,根據(jù)備份窗口選擇合適的備份方式。通過(guò)合理的配置優(yōu)化備份窗口,比如,使用lanfree備份,增加驅(qū)動(dòng)器等備份通道、使用性能更改的備份設(shè)備等方式。一般來(lái)講,核心系統(tǒng)和數(shù)據(jù)量大的非核心系統(tǒng)要求要配置lanfree備份。并且,如果配置lanfree也要做好規(guī)劃設(shè)計(jì),比如,做好san規(guī)劃,使得備份zone和普通存儲(chǔ)zone分開(kāi),并且備份系統(tǒng)都要使用獨(dú)立的hba卡或獨(dú)立的hba卡接口。
4.備份調(diào)度的確定
根據(jù)RPO和RTO和設(shè)計(jì)合理的備份調(diào)度周期,根據(jù)各個(gè)系統(tǒng)的備份窗口,合理的設(shè)計(jì)各個(gè)系統(tǒng)的備份時(shí)間。
5.做好備份恢復(fù)測(cè)試,并設(shè)計(jì)相應(yīng)的制度,定期進(jìn)行備份演練。
這個(gè)反而是最關(guān)鍵的,搞了半天備份,關(guān)鍵的時(shí)候恢復(fù)不了,這個(gè)就要命了,這樣血的教訓(xùn)太多了。
10、不知道如何如何評(píng)估備份策略
對(duì)于備份策略的制定,一是保持高效,盡量在最短的時(shí)間完成備份恢復(fù),為其他任務(wù)節(jié)省時(shí)間窗口;二是盡量降低網(wǎng)間壓力,降低備份恢復(fù)對(duì)系統(tǒng)的壓力……
舉個(gè)例子,簡(jiǎn)化下環(huán)境因素,比如影像服務(wù)器上的保單影像件,數(shù)據(jù)量約500GB,千兆以太網(wǎng)絡(luò),如何評(píng)估備份?
首先從高效方面考慮,影像件通常是碎片文件,不滿足集中備份的數(shù)據(jù)特征,因此就需要評(píng)估影像件是否接受壓縮打包之類的處理,將碎片文件聚合成大文件。壓縮打包之后對(duì)精確恢復(fù)又增加了難度,最小的恢復(fù)單位變成了一個(gè)壓縮包,所以平衡備份高效性和恢復(fù)難易度就成了一個(gè)平衡的博弈;對(duì)于網(wǎng)絡(luò)壓力來(lái)說(shuō),若是500GB的碎片文件,備份速度和效率不會(huì)很大,但耗時(shí)特長(zhǎng),影像服務(wù)器壓力不高時(shí)可接受;若是多個(gè)壓縮包匯集的500GB文件,那備份速度明顯增加,可能對(duì)影像服務(wù)器的網(wǎng)絡(luò)負(fù)載構(gòu)成一定影響,這個(gè)時(shí)候就需要考慮是否增加agent去分擔(dān)影像服務(wù)器的壓力了……
當(dāng)然,影像件的備份需要考慮的遠(yuǎn)不止這些,影像件的文件類型也是要重點(diǎn)考慮的,若是把這些都帶入這個(gè)問(wèn)題,那就無(wú)比麻煩了…
備份策略的優(yōu)化需要長(zhǎng)期的經(jīng)驗(yàn)積累,同時(shí)也需要根據(jù)實(shí)際情況因地制宜。
11.數(shù)據(jù)備份在關(guān)鍵時(shí)刻無(wú)法恢復(fù)
此前在運(yùn)營(yíng)商闖蕩的時(shí)候,遇到過(guò)一起很典型的掉鏈子例子:
運(yùn)營(yíng)商的好多客戶數(shù)據(jù)都是需要長(zhǎng)期保存的,而且不能丟,遇到重大刑偵案件的時(shí)候往往要調(diào)取這些數(shù)據(jù)協(xié)助調(diào)查,如果提供不出來(lái),會(huì)對(duì)公司當(dāng)年的考核影響很大。有一次呢,遇到了一個(gè)大案,上頭發(fā)文讓協(xié)助調(diào)查,需要恢復(fù)指定的通話記錄和部分內(nèi)容,在系統(tǒng)里很快就查到當(dāng)年數(shù)據(jù)的所在業(yè)務(wù)系統(tǒng),定位到了數(shù)據(jù)所在的服務(wù)器,隨后確定了數(shù)據(jù)的時(shí)間,接著就讓備份管理員開(kāi)始著手恢復(fù)數(shù)據(jù),檢查恢復(fù)環(huán)境,檢查數(shù)據(jù)備份狀態(tài),確認(rèn)數(shù)據(jù)時(shí)間版本,一切OK,開(kāi)始恢復(fù),恢復(fù)完了都傻眼了……恢復(fù)了一堆數(shù)據(jù),里面壓根沒(méi)有需要的數(shù)據(jù)。
后來(lái)查證,原來(lái)因?yàn)橄到y(tǒng)的某個(gè)需求變更,一部分業(yè)務(wù)數(shù)據(jù)被獨(dú)立出來(lái),存取路徑變更了,變更也沒(méi)告知備份管理員,同時(shí)這部分業(yè)務(wù)數(shù)據(jù)體量又很小,整個(gè)系統(tǒng)數(shù)據(jù)備份的體量遠(yuǎn)大于這部分?jǐn)?shù)據(jù),備份軟件的監(jiān)控上備份任務(wù)詳情里無(wú)論從備份數(shù)據(jù)量、備份時(shí)間都在正常范圍內(nèi)。更不幸的是,這個(gè)系統(tǒng)從來(lái)都沒(méi)被抽到進(jìn)行數(shù)據(jù)恢復(fù)演練……因此獨(dú)立出來(lái)的數(shù)據(jù),這幾年都沒(méi)備份……
實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),對(duì)于備份恢復(fù)也是如此。智者千慮必有一失,作為數(shù)據(jù)保護(hù)的最后一道防線,其核心本質(zhì)就是可靠、完整、安全。不管是思路、策略還是配置上的疏漏,在演練中均可暴露出來(lái),讓管理員及時(shí)查漏補(bǔ)缺。