十四五規(guī)劃中指出要“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國(guó)”。IDC預(yù)測(cè),到2022年,全球65%的GDP將由數(shù)字化推動(dòng)。近幾年新基建、數(shù)字經(jīng)濟(jì)和平臺(tái)經(jīng)濟(jì)發(fā)展迅猛,給數(shù)據(jù)中心提出了新的挑戰(zhàn)。全閃存數(shù)據(jù)中心具有速度快、綠色節(jié)能等優(yōu)勢(shì),將會(huì)是未來(lái)數(shù)據(jù)中心的發(fā)展趨勢(shì),SSD(固態(tài)硬盤(pán))也將會(huì)得到更加廣泛的應(yīng)用。
為什么關(guān)注SSD壽命預(yù)測(cè)?
企業(yè)關(guān)注SSD壽命預(yù)測(cè)技術(shù),一是因?yàn)镾SD的應(yīng)用前景非常廣闊,市場(chǎng)上使用率將越來(lái)越高。二是SSD損壞導(dǎo)致數(shù)據(jù)丟失帶來(lái)的損失是巨大的。三是因?yàn)殚W存具有擦寫(xiě)次數(shù)限制的特點(diǎn)
與傳統(tǒng)機(jī)械硬盤(pán)相比,SSD的優(yōu)勢(shì)非常明顯,如SSD速度更快,數(shù)據(jù)訪問(wèn)比機(jī)械硬盤(pán)快100倍,吞吐量大100倍,單盤(pán)IOPS大1000倍以上,并且技術(shù)在快速發(fā)展,如NVMe、PCIe將進(jìn)一步釋放SSD的性能;在可靠性表現(xiàn)上,SSD因質(zhì)量輕、體積小、防震抗摔性更好,更加可靠。再如SSD更節(jié)能,與機(jī)械硬盤(pán)相比,能耗降低70%。今年的政府工作報(bào)告中提出要在2030年之前實(shí)現(xiàn)“碳達(dá)峰”,在2060年之前實(shí)現(xiàn)“碳中和”,使用SSD能夠大幅降低數(shù)據(jù)中心的能耗。過(guò)去SSD使用率不高的原因主要是其價(jià)格昂貴,現(xiàn)在據(jù)IDC統(tǒng)計(jì):2015年到2020年,SSD平均每年的價(jià)格降幅達(dá)到25%,未來(lái)5年也將保持這一趨勢(shì);2020年,全球范圍內(nèi)企業(yè)級(jí)SSD上的支出已經(jīng)超過(guò)傳統(tǒng)硬盤(pán)。
圖1全球企業(yè)級(jí)機(jī)械硬盤(pán)和SSD盤(pán)支出對(duì)比(單位:百萬(wàn)美元),2005-2020
正是由于SSD速度快但價(jià)格相對(duì)較高,SSD通常用來(lái)存放元數(shù)據(jù)或核心數(shù)據(jù),這部分?jǐn)?shù)據(jù)丟失將會(huì)給用戶帶來(lái)的損失更加嚴(yán)重。并且,SSD閃存介質(zhì)具有擦寫(xiě)次數(shù)限制,因此SSD使用壽命更值得被關(guān)注和重視。
SSD壽命預(yù)測(cè)如何實(shí)現(xiàn)
SSD,是由控制芯片和存儲(chǔ)芯片組成的??刂菩酒荢SD的大腦,用于調(diào)配數(shù)據(jù)、數(shù)據(jù)中轉(zhuǎn)等,存儲(chǔ)芯片用于存儲(chǔ)數(shù)據(jù)。當(dāng)前主流的存儲(chǔ)芯片為NAND Flash閃存芯片,NAND采用浮柵晶體管存儲(chǔ)數(shù)據(jù),寫(xiě)入數(shù)據(jù)時(shí)需要先擦除再寫(xiě)入,寫(xiě)操作本質(zhì)是向浮柵注入電荷,擦除操作是從浮柵挪走電荷,充放電的過(guò)程會(huì)損耗二氧化硅絕緣層的絕緣能力,最終無(wú)法保證浮柵中存有足夠多的電荷。因此NAND的擦寫(xiě)次數(shù)是有限的,閃存完全擦寫(xiě)一次叫做1次P/E,閃存的壽命就以P/E作單位,例如常用的MLC-SSD擦寫(xiě)次數(shù)為10000次。SSD壽命預(yù)測(cè),本質(zhì)上就是預(yù)測(cè)NAND芯片P/E次數(shù)還可用多長(zhǎng)時(shí)間。
圖2 SSD結(jié)構(gòu)
硬盤(pán)廠商一般都遵循S.M.A.R.T.標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)保護(hù),S.M.A.R.T.標(biāo)準(zhǔn)是一種自動(dòng)的硬盤(pán)狀態(tài)檢測(cè)與預(yù)警系統(tǒng)和規(guī)范。SSD S.M.A.R.T.中包含了一些與壽命相關(guān)的指標(biāo),不同接口、不同廠商的指標(biāo)略有不同。浪潮自研NVMe SSD遵循NVMe 1.3標(biāo)準(zhǔn),提供標(biāo)準(zhǔn)的S.M.A.R.T.輸出。部分廠商SATA接口和PCIe接口壽命相關(guān)指標(biāo)如下表所示:
各個(gè)廠商通用的指標(biāo)為百分比表示的閃存磨損度,SSD壽命預(yù)測(cè)基于閃存磨損度,預(yù)測(cè)SSD未來(lái)可使用的天數(shù)。同時(shí),該壽命預(yù)測(cè)模型能友好的支持浪潮自研PCIe接口SSD。
SSD壽命預(yù)測(cè)使用時(shí)間序列預(yù)測(cè)技術(shù),基于硬盤(pán)S.M.A.R.T.標(biāo)準(zhǔn)采集預(yù)測(cè)所需的歷史時(shí)間序列數(shù)據(jù)集,再使用浪潮自研的AI預(yù)測(cè)算法,預(yù)測(cè)S.M.A.R.T.指標(biāo)未來(lái)變化,得到SSD剩余壽命天數(shù)。
圖3 SSD壽命預(yù)測(cè)流程
SSD壽命預(yù)測(cè)流程如上圖所示。整體的預(yù)測(cè)流程分為兩個(gè)階段,綠色為離線訓(xùn)練階段,目的是為了確定模型選取規(guī)則;藍(lán)色為在線預(yù)測(cè)階段,用于在用戶環(huán)境中預(yù)測(cè)SSD壽命。
離線訓(xùn)練階段使用大量的SSD全生命周期的S.M.A.R.T.數(shù)據(jù),人工將磨損度變化曲線形態(tài)標(biāo)記為3類(lèi):平穩(wěn)變化、減速變化和加速變化,再對(duì)三種類(lèi)型的SSD數(shù)據(jù)分別進(jìn)行測(cè)試。測(cè)試過(guò)程中實(shí)驗(yàn)了多種數(shù)據(jù)預(yù)處理方式和預(yù)測(cè)模型,比如Prophet、ARIMA、移動(dòng)平均法(Moving Average,MA)、指數(shù)平滑法(Exponential Smoothing,ES)、神經(jīng)網(wǎng)絡(luò)等。最終確定模型選取規(guī)則,實(shí)現(xiàn)全生命周期預(yù)測(cè)準(zhǔn)確率達(dá)到75%的國(guó)際領(lǐng)先水平。
圖4模型選取規(guī)則
在線預(yù)測(cè)階段,定時(shí)采集硬盤(pán)磨損度指標(biāo),使用提前定義好的模型選取規(guī)則,根據(jù)磨損變化數(shù)據(jù)量的大小和變化趨勢(shì),選擇最合適的時(shí)序預(yù)測(cè)模型,預(yù)測(cè)SSD壽命。
六重保護(hù)業(yè)務(wù)永遠(yuǎn)在線,可靠!
在管理軟件層面上,InView平臺(tái)每天定時(shí)采集數(shù)據(jù)、預(yù)測(cè),通過(guò)浪潮自研SSD產(chǎn)品S.M.A.R.T.功能,可以客觀呈現(xiàn)產(chǎn)品的Percentage used和Available spare信息,并展示所管理的SSD是使用壽命。當(dāng)預(yù)測(cè)結(jié)果不足2周時(shí),發(fā)出告警提示用戶,制定備份數(shù)據(jù)和換盤(pán)計(jì)劃,避免因突發(fā)換盤(pán)導(dǎo)致業(yè)務(wù)降級(jí),甚至停機(jī)維護(hù)。
圖5智能管理軟件InView界面中對(duì)SSD壽命預(yù)測(cè)
除了管理軟件,浪潮存儲(chǔ)還通過(guò)核心軟件、器件、部件、系統(tǒng)、解決方案層面等,對(duì)業(yè)務(wù)進(jìn)行端到端的整合,致力于為客戶提供一體化的方案服務(wù),做到故障早知道、故障無(wú)影響、長(zhǎng)期無(wú)故障
未來(lái)隨著數(shù)字經(jīng)濟(jì)發(fā)展,數(shù)據(jù)要素將在企業(yè)數(shù)字化轉(zhuǎn)型中扮演越來(lái)越重要的角色。浪潮存儲(chǔ)將持續(xù)加大企業(yè)級(jí)SSD研發(fā)投入,推動(dòng)集中式全閃、分布式全閃持續(xù)技術(shù)創(chuàng)新,聯(lián)合產(chǎn)學(xué)研用等生態(tài)伙伴,合力提供數(shù)據(jù)生命周期解決方案,助陣企業(yè)提速數(shù)字化轉(zhuǎn)型,釋放數(shù)據(jù)價(jià)值。