大數據這樣龐大的數據流量到底要怎樣采集才能又快又方便呢?這可是學習大數據所必須了解的一點。數據采集是指從真實世界對象中獲得原始數據的過程。不準確的數據采集將影響后續(xù)的數據處理并最終得到無效的結果。數據采集方法的選擇不但要依賴于數據源的物理性質,還要考慮數據分析的目標??贫啻髷祿o大家介紹3種常用的數據采集方法:傳感器、日志文件和web爬蟲。
1、傳感器
傳感器常用于測量物理環(huán)境變量并將其轉化為可讀的數字信號以待處理。傳感器包括聲音、振動、化學、電流、天氣、壓力、溫度和距離等類型。通過有線或無線網絡,信息被傳送到數據采集點。
有線傳感器網絡通過網線收集傳感器的信息,這種方式適用于傳感器易于部署和管理的場景。例如視頻監(jiān)控系統(tǒng)通常使用非屏蔽雙絞線連接攝像頭,攝像頭部署在公眾場合監(jiān)控人們的行為,如偷盜和其他犯罪行為。而這僅僅是光學監(jiān)控領域一個很小的應用示例,在更廣義的光學信息獲取和處理系統(tǒng)中(例如對地觀測、深空探測等),情況往往更復雜。
另一方面,無線傳感器網絡利用無線網絡作為信息傳輸的載體,適合于沒有能量或通信的基礎設施的場合。近年來,無線傳感器網絡得到了廣泛的研究,并應用在多種場合,如環(huán)境、水質監(jiān)控、土木工程、野生動物監(jiān)控等。WSNs通常由大量微小傳感器節(jié)點構成,微小傳感器由電池供電,被部署在應用制定的地點收集感知數據。當節(jié)點部署完成后,基站將發(fā)布網絡配置/管理或收集命令,來自不同節(jié)點的感知數據將被匯集并轉發(fā)到基站以待處理。
基于傳感器的數據采集系統(tǒng)被認為是一個信息物理系統(tǒng)(cyber-physicalsystem)。實際上,在科學實驗中許多用于收集實驗數據的專用儀器(如磁分光計、射電望遠鏡等),可以看作特殊的傳感器。從這個角度,實驗數據采集系統(tǒng)同樣是一個信息物理系統(tǒng)。
2、日志文件
日志是廣泛使用的數據采集方法之一,由數據源系統(tǒng)產生,以特殊的文件格式記錄系統(tǒng)的活動。幾乎所有在數字設備上運行的應用使用日志文件非常有用,例如web服務器通常要在訪問日志文件中記錄網站用戶的點擊、鍵盤輸入、訪問行為以及其他屬性。有三種類型的web服務器日志文件格式用于捕獲用戶在網站上的活動:通用日志文件格式(NCSA)、擴展日志文件格式(W3C)和IIS日志文件格式(Microsoft)。所有日志文件格式都是ASCII文本格式。數據庫也可以用來替代文本文件存儲日志信息,以提高海量日志倉庫的查詢效率。其他基于日志文件的數據采集包括金融應用的股票記帳和網絡監(jiān)控的性能測量及流量管理。
和物理傳感器相比,日志文件可以看作是“軟件傳感器”,許多用戶實現的數據采集軟件屬于這類。
3、Web爬蟲
爬蟲是指為搜索引擎下載并存儲網頁的程序。爬蟲順序地訪問初始隊列中的一組URLs,并為所有URLs分配一個優(yōu)先級。爬蟲從隊列中獲得具有一定優(yōu)先級的URL,下載該網頁,隨后解析網頁中包含的所有URLs并添加這些新的URLs到隊列中。這個過程一直重復,直到爬蟲程序停止為止。Web爬蟲是網站應用如搜索引擎和web緩存的主要數據采集方式。數據采集過程由選擇策略、重訪策略、禮貌策略以及并行策略決定。選擇策略決定哪個網頁將被訪問;重訪策略決定何時檢查網頁是否更新;禮貌策略防止過度訪問網站;并行策略則用于協(xié)調分布的爬蟲程序。傳統(tǒng)的web爬蟲應用已較為成熟,提出了不少有效的方案。隨著更豐富更先進的web應用的出現,一些新的爬蟲機制已被用于爬取富互聯網應用的數據。
除了上述方法,還有許多和領域相關的數據采集方法和系統(tǒng)。例如,政府部門收集并存儲指紋和簽名等人體生物信息,用于身份認證或追蹤罪犯。根據數據采集方式的不同,數據采集方法又可以大致分為以下兩類:
●基于拉(pull-based)的方法,數據由集中式或分布式的代理主動收集。
●基于推(push-based)的方法,數據由源或第三方推向數據匯聚點。
日志文件是最簡單的數據采集方法,但是只能收集相對一小部分結構化數據;web爬蟲是最靈活的數據采集方法,可以獲得巨量的結構復雜的數據。
大數據培訓中提到的大數據采集方法可不僅僅只是第三種編寫爬蟲哦,前面兩種也需要編寫程序來提高數據采集和整理的速度。更多大數據學習資訊關注科多大數據就能獲得。