當(dāng)前,數(shù)據(jù)量的快速增長已經(jīng)成為了IT管理部門所面對的最難于解決的問題之一。數(shù)據(jù)量的增長嚴(yán)重降低了應(yīng)用程序的性能,降低了應(yīng)用程序的穩(wěn)定性,并且消耗了大量的投資,同時對備份與恢復(fù)也增加了巨大的負(fù)擔(dān)。
顯然,對于IT管理部門來說,不能永無止境的投入大量資金來升級系統(tǒng)存儲水平、提高服務(wù)器性能,以此來滿足不斷增長的數(shù)據(jù)量。數(shù)據(jù)清理在這個時候就顯得尤為重要。
通過數(shù)據(jù)清理和數(shù)據(jù)歸檔的實(shí)施可以有效的提高數(shù)據(jù)庫性能,確保核心業(yè)務(wù)不會因?yàn)殚L時間數(shù)據(jù)積累而出現(xiàn)性能問題,從而應(yīng)用可以更加迅捷地提供優(yōu)質(zhì)服務(wù)。當(dāng)然,數(shù)據(jù)清理技術(shù)也經(jīng)過了漫長的發(fā)展且仍在研發(fā)之中。
根據(jù)Anaconda和Figure Eight進(jìn)行的調(diào)查,數(shù)據(jù)清理可能需要數(shù)據(jù)科學(xué)家四分之一的時間。并且,自動化數(shù)據(jù)清理對于數(shù)據(jù)清理而言極具挑戰(zhàn)性——因?yàn)椴煌臄?shù)據(jù)集需要不同類型的清理,而且經(jīng)常需要對世界上的對象進(jìn)行常理性的判斷。
基于此,近日,麻省理工學(xué)院(MIT)的研究人員就稱,他們發(fā)明了一種新的系統(tǒng),可以自動清除“臟數(shù)據(jù)”(dirty data)——數(shù)據(jù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家害怕的打字錯誤、重復(fù)、缺失值、拼寫錯誤和不一致。
新系統(tǒng)被稱為PClean,是概率計(jì)算項(xiàng)目(Probabilistic Computing Project)研究人員編寫的針對特定領(lǐng)域的概率編程語言,旨在簡化人工智能應(yīng)用程序的開發(fā)并實(shí)現(xiàn)自動化,例如時間序列和數(shù)據(jù)庫進(jìn)行建模。
PClean使用一種基于知識的方法來自動化數(shù)據(jù)清理過程:用戶對數(shù)據(jù)庫的背景知識以及可能出現(xiàn)的問題進(jìn)行編碼。用戶可以給PClean關(guān)于域和關(guān)于數(shù)據(jù)可能被破壞的背景知識。PClean通過常識概率推理結(jié)合這些知識來得出答案。
PClean是第一個貝葉斯數(shù)據(jù)清理系統(tǒng),它可以結(jié)合領(lǐng)域?qū)I(yè)知識和常識性推理,自動清理數(shù)據(jù)庫中的數(shù)百萬條記錄。PClean工作所需的代碼行數(shù)要比其他最先進(jìn)的選擇少得多:PClean程序只需要大約50行代碼就可以在準(zhǔn)確性和運(yùn)行時方面超過基準(zhǔn)測試。
顯然,大數(shù)據(jù)時代里還需要更多數(shù)據(jù)清理技術(shù)的開發(fā),這也將為未來大數(shù)據(jù)的發(fā)展提供更多的保證。