本文來自千家網(wǎng),作者:Saumitra Jagdale。
物聯(lián)網(wǎng)設(shè)備的快速增長以及由此產(chǎn)生的數(shù)據(jù)泛濫給管理、處理和分析物聯(lián)網(wǎng)數(shù)據(jù)帶來了獨特的挑戰(zhàn)。龐大的數(shù)據(jù)量、速度和多樣性需要能夠處理和提取有意義的見解的先進數(shù)據(jù)科學技術(shù)。當數(shù)據(jù)科學被應(yīng)用時,在物聯(lián)網(wǎng)領(lǐng)域有很大的創(chuàng)新和價值創(chuàng)造空間。除了強調(diào)其好處外,它還研究了在使用數(shù)據(jù)科學技術(shù)評估物聯(lián)網(wǎng)數(shù)據(jù)時要考慮的困難和因素。
數(shù)據(jù)科學在各種物聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,包括工業(yè)物聯(lián)網(wǎng)、智慧城市、醫(yī)療保健和農(nóng)業(yè)。確定了未來的研究和發(fā)展方向,包括理解機器學習模型,隱私和安全問題,以及物聯(lián)網(wǎng)中數(shù)據(jù)科學的倫理影響。
數(shù)據(jù)科學的實施和應(yīng)用伴隨著物聯(lián)網(wǎng)框架,強調(diào)與檢查和利用物聯(lián)網(wǎng)數(shù)據(jù)相關(guān)的方法、目的和障礙??紤]到這類數(shù)據(jù)的特殊性,研究了處理物聯(lián)網(wǎng)數(shù)據(jù)的數(shù)據(jù)科學技術(shù)的獨特特征,包括異常檢測、融合、機器學習和預(yù)處理過程。此外,它還強調(diào)了分布式和可擴展數(shù)據(jù)處理系統(tǒng)對于處理大量實時物聯(lián)網(wǎng)數(shù)據(jù)的重要性。
物聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理和清理中使用的技術(shù)
數(shù)據(jù)清洗技術(shù)通過消除未處理物聯(lián)網(wǎng)數(shù)據(jù)中的噪聲、異常和不規(guī)則性,提高數(shù)據(jù)的準確性和質(zhì)量。它涉及識別和管理缺失值、修復(fù)錯誤以及確保數(shù)據(jù)完整性。丟失的數(shù)據(jù)處理主要集中在傳感器故障、網(wǎng)絡(luò)中斷和設(shè)備故障上,導(dǎo)致物聯(lián)網(wǎng)數(shù)據(jù)流中的值丟失。數(shù)據(jù)科學家使用均值插補和插值等成像技術(shù)通過查找模式和聯(lián)系來填補數(shù)據(jù)集中的空白。為了提供公平的比較和分析,使用數(shù)據(jù)標準化技術(shù)對數(shù)據(jù)進行標準化,使其達到標準規(guī)模。
圖1:物聯(lián)網(wǎng)數(shù)據(jù)特征(圖片來源:參考文獻[1])
特征工程是從未經(jīng)過濾的原始物聯(lián)網(wǎng)數(shù)據(jù)中提取有用和相關(guān)的特征。它通過捕獲數(shù)據(jù)中復(fù)雜的相關(guān)性和模式來提高機器學習算法的功能。特征工程技術(shù)的例子包括變量轉(zhuǎn)換、交互項創(chuàng)建和統(tǒng)計特征提取。使用這些方法,數(shù)據(jù)專業(yè)人員可以通過確保物聯(lián)網(wǎng)數(shù)據(jù)的質(zhì)量、可靠性和完整性來保證分析的準確性和意義。這些過程為后期的數(shù)據(jù)科學任務(wù)創(chuàng)造了舞臺,包括特征選擇、模型構(gòu)建和預(yù)測分析,允許提取分析信息并根據(jù)物聯(lián)網(wǎng)數(shù)據(jù)做出可辯護的結(jié)論。
物聯(lián)網(wǎng)數(shù)據(jù)對數(shù)據(jù)科學的挑戰(zhàn)
數(shù)據(jù)采集:物聯(lián)網(wǎng)設(shè)備在多個環(huán)境和地點的分散特性可能具有挑戰(zhàn)性。為了獲得可信的物聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)科學家必須考慮數(shù)據(jù)采集以及兼容性、同步和數(shù)據(jù)訪問。
數(shù)據(jù)預(yù)處理:在分析物聯(lián)網(wǎng)數(shù)據(jù)之前,經(jīng)常需要進行大量的準備。從設(shè)備中檢索到的原始數(shù)據(jù)中可能存在缺失的數(shù)字、異常、噪聲和不一致。數(shù)據(jù)預(yù)處理將應(yīng)對與數(shù)據(jù)質(zhì)量、處理缺失值、檢測和處理異常值以及擴展或標準化數(shù)據(jù)相關(guān)的困難。
數(shù)據(jù)融合:各種來源,包括社交媒體、智能手機、平板電腦和傳感器,經(jīng)常產(chǎn)生物聯(lián)網(wǎng)數(shù)據(jù)。一個重要的挑戰(zhàn)是集成和融合來自不同來源的數(shù)據(jù),為了合并和組合來自許多傳感器或設(shè)備的數(shù)據(jù),可以通過考慮數(shù)據(jù)的語義、時間和地理組件來使用數(shù)據(jù)融合技術(shù)。
數(shù)據(jù)隱私和安全:物聯(lián)網(wǎng)數(shù)據(jù)經(jīng)常包含敏感和個人數(shù)據(jù),這引發(fā)了安全和隱私問題。為了保護物聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)隱私和安全必須采用隱私保護策略,安全的數(shù)據(jù)處理程序,并遵守隱私法。
機器學習在物聯(lián)網(wǎng)數(shù)據(jù)分析中的關(guān)鍵應(yīng)用
統(tǒng)計方法:統(tǒng)計方法檢測物聯(lián)網(wǎng)數(shù)據(jù)中標準模式的偏差。它們是相對可解釋的和直接的,使它們適合于識別簡單的異常。然而,它們可能無法捕獲復(fù)雜的異常或模式,并假設(shè)可能不適用于所有物聯(lián)網(wǎng)場景的數(shù)據(jù)分布和假設(shè)。
異常檢測:物聯(lián)網(wǎng)數(shù)據(jù)異??赡苁枪收稀⑵婀中袨榛虬踩┒吹嫩E象,可以使用機器學習技術(shù)來發(fā)現(xiàn)。通過基于標準數(shù)據(jù)模式的訓練模型,可以識別并標記與規(guī)范的偏差,以進行額外的查詢。
聚類和細分:機器學習聚類算法可以找到具有相似使用模式的設(shè)備集群,對數(shù)據(jù)進行細分以進行重點分析,或根據(jù)特定特征或行為對可比較的物聯(lián)網(wǎng)數(shù)據(jù)實例進行分組,并協(xié)助識別模式。
特征選擇和降維:物聯(lián)網(wǎng)數(shù)據(jù)可以有很多方面并且是高維的。特征選擇和最小化維度等機器學習技術(shù)可以通過定位最相關(guān)的特征或?qū)?shù)據(jù)轉(zhuǎn)換到較低維度的空間來增強計算效率和模型性能。
分類和回歸:機器學習算法可以識別特定事件或條件,或?qū)⑽锫?lián)網(wǎng)數(shù)據(jù)分為多個組。例如,回歸模型可以根據(jù)環(huán)境條件或取決于輸入變量的數(shù)值來預(yù)測能源使用情況。
時間序列分析:模式和時間順序在物聯(lián)網(wǎng)數(shù)據(jù)中很常見。使用機器學習方法進行時間序列分析可以從時變數(shù)據(jù)中獲得有價值的見解,從而促進長期趨勢分析、異常檢測和預(yù)測。時間序列分析技術(shù)還可以捕獲物聯(lián)網(wǎng)數(shù)據(jù)中的時間依賴性和趨勢。它們能夠預(yù)測未來趨勢并識別一段時間內(nèi)的異常情況。然而,他們可能需要有關(guān)不規(guī)則或丟失的時間序列數(shù)據(jù)的幫助,并且正確的建模和時間序列技術(shù)的選擇需要專業(yè)知識。
通過采用機器學習方法,它可以檢測潛在模式,提供精確的預(yù)測,增強資源分配,并獲得重要的見解以支持物聯(lián)網(wǎng)環(huán)境中的決策程序。然而,考慮到物聯(lián)網(wǎng)數(shù)據(jù)的獨特品質(zhì)和困難,例如數(shù)量、速度、多樣性和真實性,謹慎選擇和訓練機器學習模型至關(guān)重要。技術(shù)的選擇取決于物聯(lián)網(wǎng)數(shù)據(jù)的具體特征以及所需的準確性和可解釋性水平。研究人員和從業(yè)者在選擇合適的物聯(lián)網(wǎng)數(shù)據(jù)異常檢測和異常值分析方法時應(yīng)考慮這些因素。
結(jié)論
數(shù)據(jù)科學方法對于評估物聯(lián)網(wǎng)設(shè)備產(chǎn)生的大量數(shù)據(jù)并從中獲取意義至關(guān)重要。這些策略可以使智能城市、醫(yī)療保健、農(nóng)業(yè)和工業(yè)物聯(lián)網(wǎng)的應(yīng)用成為可能。物聯(lián)網(wǎng)數(shù)據(jù)分析需要機器學習算法的幫助,例如聚類、異常檢測、預(yù)測性維護和分類。降維和特征選擇等方法可以提高模型性能。大量的物聯(lián)網(wǎng)數(shù)據(jù)提供了顯著的可擴展性和實時處理障礙。邊緣計算和分布式框架可以促進實時分析并處理大量物聯(lián)網(wǎng)數(shù)據(jù)。
數(shù)據(jù)科學應(yīng)用廣泛應(yīng)用于用于預(yù)測性維護的工業(yè)物聯(lián)網(wǎng)、用于交通管理的智能城市、用于遠程患者監(jiān)控的醫(yī)療保健以及用于農(nóng)作物產(chǎn)量預(yù)測的農(nóng)業(yè)等領(lǐng)域。但是,關(guān)于物聯(lián)網(wǎng)可擴展性、隱私、安全性、模型可解釋性、道德問題和數(shù)據(jù)可靠性的數(shù)據(jù)科學方法仍然存在懸而未決的問題。物聯(lián)網(wǎng)可以通過解決這些問題來充分利用數(shù)據(jù)科學。
參考
[1]Hu,L.和Shu,Y.(2023)。利用物聯(lián)網(wǎng)環(huán)境中的數(shù)據(jù)科學增強決策能力。國際先進計算機科學與應(yīng)用雜志,14(9)doi:https://doi.org/10.14569/IJACSA.2023.01409120