超融合基礎(chǔ)設(shè)施(HCI)的主要優(yōu)勢之一,就是能夠大大簡化日常的運維操作任務(wù),這可能是很多企業(yè)選擇采購HCI設(shè)備的原因,但眾所周知,有很多對硬件的一般維護需求是無法被消除的,包括HCI設(shè)備。
隨著運行時間的增加,HCI硬件最終會出現(xiàn)故障或運行能力不足的問題,而且所有硬件的壽命都是有限的。為了保持HCI的運行,持續(xù)交付業(yè)務(wù)價值,您必須定期對組件進行維護,來保持硬件平臺的正常、健康運行狀態(tài)。
如果您只部署了小規(guī)模的HCI設(shè)備,那么在三到五年的生命周期中,可能很少會看到故障的發(fā)生。您擁有和管理的設(shè)備越多,故障的可能性就越大。如果您的機房里正在運行數(shù)百個HCI硬件節(jié)點,那么可能甚至每隔幾個月就會發(fā)生一次組件故障,盡管現(xiàn)代服務(wù)器的設(shè)計具有很強的容錯性。
系統(tǒng)通常有冗余的風(fēng)扇和電源,因此單個組件故障不會導(dǎo)致停機。也就是說,您的HCI維護計劃應(yīng)該包括硬件的更換,無論是在本地還,是通過供應(yīng)商的支持獲得所有服務(wù)。
不斷增長的容量需求
HCI需要持續(xù)的容量管理。業(yè)務(wù)系統(tǒng)對資源需求會隨著時間而不斷增長,而且每個集群的資源池在部署時都是有限。
容量監(jiān)視應(yīng)該是HCI硬件管理計劃的核心部分(最好帶有預(yù)測功能),以便預(yù)測系統(tǒng)何時需要更多的資源。在對資源預(yù)算進行預(yù)測時,要考慮到財務(wù)審批、訂購、實現(xiàn)和硬件部署的時間等因素。
如果遇到當容量耗盡時新采購的硬件還在運貨車上這種情況,就很難受了,也會很有壓力。另外也應(yīng)注意資源的平衡,因為購買的HCI硬件,往往是固定的計算和存儲資源配比組合,這使得這類設(shè)備的擴展比常規(guī)的熱插拔服務(wù)器要更加困難。因此要時刻跟蹤資源的可用性,可以使用HCI管理軟件,在資源達到某個閾值時獲得常規(guī)報告或警報。
如果您的工作負載的計算和存儲消耗分布不均勻,那么可能會因為低資源利用率造成浪費,從而降低HCI的成本效益。
考慮添加只有計算的節(jié)點還是只有存儲的節(jié)點,是擴展HCI硬件配置的更經(jīng)濟有效的方法。還要記住,硬件維護會從HCI集群中奪走部分資源,另外在替換風(fēng)扇或硬盤驅(qū)動器等部件時,您可能需要關(guān)閉節(jié)點。
集群擴展的考慮
當需要擴展HCI集群時,建議認真考慮一下新硬件對資源可用性的影響。如果您繼續(xù)使用來自同一供應(yīng)商的類似的HCI硬件節(jié)點進行擴展,可能就不會影響整體性能。
但如果使用存儲和計算資源差異很大的節(jié)點進行擴展,那么整個基礎(chǔ)設(shè)施的性能可能會不平衡。例如,一個擁有四個較老的中端256GB HCI節(jié)點的集群,可以使用兩個更新的、功能強大得多的768GB節(jié)點進行擴展。
如果您的集群從1TB RAM擴展到2.5TB RAM,當其中一個新的節(jié)點出現(xiàn)故障時,集群可能會丟失近三分之一的RAM;但是如果一個舊的節(jié)點故障了,您只損失了10%的RAM。這種潛在的不平衡可能會影響CPU或存儲容量,并帶來新節(jié)點上的維護或兼容性問題。
集群擴展后的下一步是組件替換。當HCI節(jié)點的生命周期結(jié)束時,可以將新節(jié)點部署到集群中,然后將舊節(jié)點從中剔除。
判斷一項資產(chǎn)是否已經(jīng)到了生命的盡頭,實際上是一項商業(yè)決策。當資產(chǎn)價值貶值為零時,當您決定消除舊硬件的故障風(fēng)險時,或者當新的硬件升級使得舊硬件運行成本增加時,硬件的生命周期就結(jié)束了。
原文作者:Alastair Cooke