萊斯大學(xué)計(jì)算機(jī)科學(xué)家EugeneNg和他的同事們推出了一種名為ShareBackup的新工具,該工具允許數(shù)據(jù)中心中的共享備份交換機(jī)在軟件或硬件交換機(jī)出現(xiàn)故障后的幾分之一秒內(nèi)承擔(dān)網(wǎng)絡(luò)流量。換句話(huà)說(shuō),當(dāng)失敗不可避免地發(fā)生時(shí),它將保持快速的數(shù)據(jù)。
根據(jù)Ng,該工具將解決數(shù)據(jù)專(zhuān)家、研究人員和依賴(lài)于系統(tǒng)的每個(gè)人的典型的不便,以傳達(dá)長(zhǎng)時(shí)間的結(jié)果。
Ng說(shuō),“數(shù)據(jù)網(wǎng)絡(luò)由服務(wù)器和網(wǎng)絡(luò)交換機(jī)組成。交換機(jī)將數(shù)據(jù)包移動(dòng)到需要移動(dòng)的地方。但這一切都失敗了,尤其是在擁有數(shù)千塊硬件的大型數(shù)據(jù)中心。
對(duì)于失敗的交換機(jī),通常的反應(yīng)是將數(shù)據(jù)流分流到另一行。一般來(lái)說(shuō),網(wǎng)絡(luò)有多條連接服務(wù)器的路徑,所以,就像高速公路上有個(gè)封閉路段一樣,我們會(huì)繞著它轉(zhuǎn)。這是一種傳統(tǒng)的、自然的方法,很有道理:你在失敗的地方重新選擇路線,以到達(dá)你需要去的地方。
“但有時(shí)另一條路很擁擠,一切都減速了。數(shù)據(jù)中心不是互聯(lián)網(wǎng);它們與人們?yōu)g覽網(wǎng)站無(wú)關(guān)。它們是關(guān)于支持?jǐn)?shù)據(jù)密集型應(yīng)用程序,比如數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)。許多應(yīng)用程序都有嚴(yán)格的性能期限,因此盲目地重新路由流量可能是數(shù)據(jù)中心不應(yīng)該做的事情。
在這種情況下,ShareBackup工具將快速交換機(jī)和軟件放在戰(zhàn)略位置,可以在一微秒內(nèi)從失敗的交換機(jī)上接收流量。當(dāng)問(wèn)題解決后,該工具使備份開(kāi)關(guān)可用來(lái)處理另一個(gè)故障。
Ng說(shuō),“ShareBackup不僅可以保持全帶寬,還可以幫助分析問(wèn)題,包括通常導(dǎo)致網(wǎng)絡(luò)故障的錯(cuò)誤配置,從而節(jié)省數(shù)據(jù)中心的時(shí)間和金錢(qián)。”
“我們的部分工作是幫助數(shù)據(jù)中心找出網(wǎng)絡(luò)中的問(wèn)題所在。一旦備份被激活,您就可以將故障設(shè)備從生產(chǎn)網(wǎng)絡(luò)中取出,并對(duì)其進(jìn)行測(cè)試,以確定是哪個(gè)組件導(dǎo)致了問(wèn)題。
“現(xiàn)在,如果我們把兩個(gè)設(shè)備拿出來(lái),卻不知道哪個(gè)壞了,這兩個(gè)都需要更換。”很可能只有一種設(shè)備存在問(wèn)題。我們的軟件可以以半自動(dòng)的方式診斷這些設(shè)備,如果其中一個(gè)部件是好的,就可以恢復(fù)。
這篇論文的主要作者是萊斯大學(xué)研究生吳定明和校友夏亦婷,她現(xiàn)在是Facebook的一名計(jì)算機(jī)科學(xué)家。共同作者是萊斯大學(xué)研究生孫曉葉,黃欣和辛巴拉什·齊納馬拉拉。
吳昌俊本周將在匈牙利布達(dá)佩斯舉行的2018年SIGCOMM會(huì)議上發(fā)表一篇關(guān)于這項(xiàng)工作的同行評(píng)議論文。這篇論文可以下載。