預(yù)計(jì)到2025年,聯(lián)網(wǎng)設(shè)備的數(shù)量將增加兩倍。相應(yīng)地,物聯(lián)網(wǎng)正在加入重要的大數(shù)據(jù)源。這使得數(shù)據(jù)從業(yè)者將注意力轉(zhuǎn)向物聯(lián)網(wǎng)大數(shù)據(jù)。
物聯(lián)網(wǎng)大數(shù)據(jù)的性質(zhì)
物聯(lián)網(wǎng)大數(shù)據(jù)與其他大數(shù)據(jù)類型明顯不同。要形成清晰的畫面,想象一個(gè)不斷生成數(shù)據(jù)的傳感器網(wǎng)絡(luò)。例如,在制造中,它可以是特定機(jī)械部分的溫度值,以及振動(dòng)、潤(rùn)滑、濕度、壓力等。因此,物聯(lián)網(wǎng)大數(shù)據(jù)是機(jī)器生成的,而不是由人類創(chuàng)造的。它主要代表數(shù)字的流動(dòng),而不是文本的塊。
現(xiàn)在,想象一下,每個(gè)傳感器每秒產(chǎn)生5次測(cè)量,總體而言,您安裝了1,000個(gè)傳感器。而這種大容量數(shù)據(jù)是不斷流動(dòng)的(順便說(shuō)一句,這樣的數(shù)據(jù)有一個(gè)特殊的名稱–流數(shù)據(jù))。當(dāng)然,純粹的數(shù)據(jù)收集不是你的最終目標(biāo)–你需要有價(jià)值的見(jiàn)解,其中一些盡可能接近實(shí)時(shí)。如果壓力突然降到臨界水平,你就不會(huì)高興知道這一點(diǎn),只有幾個(gè)小時(shí)。到那時(shí),您的維護(hù)團(tuán)隊(duì)可能已經(jīng)在嘗試修理?yè)p壞的機(jī)械單元。
此外,物聯(lián)網(wǎng)數(shù)據(jù)是特定的位置和時(shí)間。雖然示例可能很多,但在這里我們僅會(huì)提到幾個(gè)示例:位置數(shù)據(jù)對(duì)于了解哪些傳感器傳達(dá)可能表示即將發(fā)生故障的讀數(shù)至關(guān)重要,而時(shí)間戳對(duì)于識(shí)別可能導(dǎo)致機(jī)械故障的特定模式至關(guān)重要。例如,每十秒鐘溫度值增加5 F,但仍不會(huì)超過(guò)閾值,這導(dǎo)致壓力增加1,000 Pa一分鐘。
物聯(lián)網(wǎng)大數(shù)據(jù)的存儲(chǔ)、預(yù)處理和分析
當(dāng)然,您的業(yè)務(wù)目標(biāo)始終為解決方案的架構(gòu)奠定基礎(chǔ)。盡管如此,物聯(lián)網(wǎng)大數(shù)據(jù)的性質(zhì)在數(shù)據(jù)存儲(chǔ)、預(yù)處理和分析方面留下了印記。因此,讓我們仔細(xì)看看每個(gè)過(guò)程的具體功能。
物聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)
由于您必須處理大量不同格式的快速到達(dá)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)將無(wú)法滿足您的要求–您需要一個(gè)數(shù)據(jù)湖和一個(gè)大數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)湖可分為幾個(gè)區(qū)域,如著陸區(qū)(原始格式的原始數(shù)據(jù))、過(guò)渡區(qū)(用于基本清理和過(guò)濾后的數(shù)據(jù)以及來(lái)自其他數(shù)據(jù)源的原始數(shù)據(jù)),以及分析沙盒(用于數(shù)據(jù)科學(xué)和探索活動(dòng))。需要一個(gè)大數(shù)據(jù)倉(cāng)庫(kù)從數(shù)據(jù)湖中提取數(shù)據(jù),進(jìn)行轉(zhuǎn)換,并以更有條理的方式進(jìn)行存儲(chǔ)。
物聯(lián)網(wǎng)大數(shù)據(jù)預(yù)處理
重要的是要決定您是想存儲(chǔ)原始數(shù)據(jù)還是已經(jīng)預(yù)處理過(guò)的數(shù)據(jù)。事實(shí)上,正確回答這個(gè)問(wèn)題是與物聯(lián)網(wǎng)大數(shù)據(jù)相關(guān)的挑戰(zhàn)之一。讓我們回到我們的示例中,傳感器每秒通信5個(gè)溫度值。一種選擇是存儲(chǔ)所有5個(gè)讀數(shù),而另一個(gè)選項(xiàng)是只存儲(chǔ)一個(gè)值,例如每個(gè)聚合期的平均/中位數(shù)/模式為一秒。要清楚地看到這種方法對(duì)所需的存儲(chǔ)容量有何不同,您應(yīng)該將傳感器的總數(shù)乘以預(yù)期的運(yùn)行時(shí)間,然后乘以其讀取頻率。
如果您屬于70%重視實(shí)時(shí)管理數(shù)據(jù)的組織,并且您的計(jì)劃的一部分是獲得實(shí)時(shí)見(jiàn)解,則無(wú)需將所有讀數(shù)發(fā)送到數(shù)據(jù)存儲(chǔ),仍可以進(jìn)行實(shí)時(shí)警報(bào)。例如,您的系統(tǒng)能夠吸收整個(gè)數(shù)據(jù)流,并且設(shè)置了觸發(fā)即時(shí)警報(bào)的關(guān)鍵閾值或偏差。但是,只有一些過(guò)濾或壓縮的數(shù)據(jù)被發(fā)送到數(shù)據(jù)存儲(chǔ)。
避免數(shù)據(jù)丟失的方法
還需要提前考慮,如果讀數(shù)流量因某種原因停止,假設(shè)傳感器暫時(shí)故障或與網(wǎng)關(guān)失去連接。
在這里,有兩種方法是可能的:
使用可靠的可靠算法來(lái)疏漏數(shù)據(jù)。
例如,使用冗余傳感器,有幾個(gè)傳感器來(lái)測(cè)量相同的參數(shù)。一方面,這增加了可靠性:如果一個(gè)傳感器發(fā)生故障,其他傳感器將繼續(xù)發(fā)送讀數(shù)。另一方面,這種方法需要更復(fù)雜的分析,因?yàn)閭鞲衅骺赡軙?huì)生成略有不同的值,而分析算法應(yīng)該對(duì)此進(jìn)行處理。
物聯(lián)網(wǎng)大數(shù)據(jù)分析
物聯(lián)網(wǎng)大數(shù)據(jù)需要兩種類型的分析:批量和流媒體。批量分析是所有大數(shù)據(jù)類型固有的,物聯(lián)網(wǎng)大數(shù)據(jù)也不例外。它被廣泛用于對(duì)捕獲的數(shù)據(jù)進(jìn)行復(fù)雜的分析,以確定趨勢(shì)、相關(guān)性、模式和依賴性。批量分析涉及應(yīng)用于歷史數(shù)據(jù)的復(fù)雜算法和統(tǒng)計(jì)模型。
流式分析完美地涵蓋了物聯(lián)網(wǎng)大數(shù)據(jù)的所有細(xì)節(jié)。它旨在處理在小時(shí)間間隔內(nèi)生成的高速數(shù)據(jù)流,并提供近乎實(shí)時(shí)的見(jiàn)解。對(duì)于不同的系統(tǒng),此“實(shí)時(shí)”參數(shù)會(huì)有所不同。在某些情況下,它可以用毫秒來(lái)測(cè)量,而在其他情況下,可以在幾分鐘內(nèi)測(cè)量。為了盡快獲得見(jiàn)解,可以分析捕獲的數(shù)據(jù)在系統(tǒng)的邊緣,甚至在數(shù)據(jù)流處理器中。
總結(jié)一下
從本質(zhì)上講,物聯(lián)網(wǎng)大數(shù)據(jù)是機(jī)器生成的、大容量的、流媒體的、位置和時(shí)間特定的。大數(shù)據(jù)咨詢實(shí)踐證明,在設(shè)計(jì)和開(kāi)發(fā)物聯(lián)網(wǎng)解決方案之前考慮這些功能是多么重要。我們確信,您不希望在短短幾個(gè)月內(nèi)耗盡存儲(chǔ)空間,或僅僅因?yàn)槟慕鉀Q方案不支持流式分析,或面臨任何其他問(wèn)題而錯(cuò)過(guò)實(shí)時(shí)見(jiàn)解,而會(huì)破壞您的IoT解決方案的穩(wěn)健性。為了避免這種情況,有必要明確確定您的短期和長(zhǎng)期業(yè)務(wù)需求,并從多個(gè)選項(xiàng)中仔細(xì)選擇最佳的大數(shù)據(jù)架構(gòu)和技術(shù)堆棧。