大數(shù)據(jù)存儲
大數(shù)據(jù)存儲,英文為Big Data Storage。“大數(shù)據(jù)”通常指的是那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集,亦指那些在傳統(tǒng)基礎(chǔ)設(shè)施中長期保存的數(shù)據(jù)。大數(shù)據(jù)存儲是將這些數(shù)據(jù)集持久化到計算機中。
這里的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業(yè)中IT基礎(chǔ)設(shè)施的規(guī)模。業(yè)內(nèi)對大數(shù)據(jù)應(yīng)用寄予了無限的期望–商業(yè)信息積累的越多價值也越大–只不過我們需要一個方法把這些價值挖掘出來。
隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長,它已經(jīng)衍生出了自己獨特的架構(gòu),而且也直接推動了存儲、網(wǎng)絡(luò)以及計算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,就這個例子來說,我們很明顯的看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲基礎(chǔ)設(shè)施的發(fā)展。
從另一方面看,這一變化對存儲廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個機會。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設(shè)計已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲廠商已經(jīng)意識到這一點,他們開始修改基于塊和文件的存儲系統(tǒng)的架構(gòu)設(shè)計以適應(yīng)這些新的要求。在這里,我們會討論哪些與大數(shù)據(jù)存儲基礎(chǔ)設(shè)施相關(guān)的屬性,看看它們?nèi)绾斡哟髷?shù)據(jù)的挑戰(zhàn)。
圖源:Pexels
02、結(jié)構(gòu)化存儲
結(jié)構(gòu)化數(shù)據(jù),簡單來說就是數(shù)據(jù)庫。結(jié)合到典型場景中更容易理解,比如企業(yè)ERP、財務(wù)系統(tǒng);醫(yī)療HIS數(shù)據(jù)庫;教育一卡通;政府行政審批;其他核心數(shù)據(jù)庫等。基本包括高速存儲應(yīng)用需求、數(shù)據(jù)備份需求、數(shù)據(jù)共享需求以及數(shù)據(jù)容災需求。
結(jié)構(gòu)化數(shù)據(jù)也稱作行數(shù)據(jù),是由二維表結(jié)構(gòu)來邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進行存儲和管理。與結(jié)構(gòu)化數(shù)據(jù)相對的是不適于由數(shù)據(jù)庫二維表來表現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、XML、HTML、各類報表、圖片和音頻、視頻信息等。支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫采用多值字段、了字段和變長字段機制進行數(shù)據(jù)項的創(chuàng)建和管理,廣泛應(yīng)用于全文檢索和各種多媒體信息處理領(lǐng)域
結(jié)構(gòu)化數(shù)據(jù)標記,是一種能讓網(wǎng)站以更好的姿態(tài)展示在搜索結(jié)果當中的方式。做了結(jié)構(gòu)化數(shù)據(jù)標記,便能使網(wǎng)站在搜索結(jié)果中良好地展示豐富網(wǎng)頁摘要。
搜索引擎都支持標準的結(jié)構(gòu)化數(shù)據(jù)標記,以便為用戶提供更好的上網(wǎng)體驗。網(wǎng)頁內(nèi)微數(shù)據(jù)標記可以幫助搜索引擎理解網(wǎng)頁上的信息,能更方便搜索引擎識別分類,判斷相關(guān)性。
同時結(jié)構(gòu)化微數(shù)據(jù)可以讓搜索引擎提供更豐富的搜索結(jié)果摘要展現(xiàn),也就是為用戶的具體查詢提供幫助的詳細信息,讓用戶直接在搜索結(jié)果中看見你商品的重要信息。例如:商品的價格、名稱、庫存狀況(商品是否有貨)、評論者評分和評論等都可以在搜索結(jié)果摘要直接看到。
這些豐富網(wǎng)頁摘要可幫助用戶了解網(wǎng)站與他們的搜索內(nèi)容是否相關(guān),可以讓網(wǎng)頁獲得更多點擊。
如在搜索結(jié)果中,部分展示了更多的星級評分、評論條數(shù)以及價格等因素,這樣無疑增加了網(wǎng)站的專業(yè)程度,且提高了客戶對網(wǎng)站的信任度,網(wǎng)站良好的曝光度無形中就提高了網(wǎng)站的點擊率與轉(zhuǎn)化率。
圖源:Markus Spiske/Unsplash
03、標記方式
使用HTML代碼標記
HTML代碼標記的方式主要有3種:微數(shù)據(jù)、微格式和RDFa。但對于一些外貿(mào)站站來說,標記是以微數(shù)據(jù)為主,少許時候也會用到微格式,視不用的頁面類型而定吧。
使用微數(shù)據(jù)標記
使用微數(shù)據(jù)標記的話,有兩種代碼格式:http://data-vocabulary.org/和http://schema.org/。由于data-vocabulary標記只支持谷歌搜索,而schema同時支持谷歌、雅虎、Bing等搜索,因而我們不妨稱data-vocabulary為舊版標記,schema為新版標記。
主流是使用schema進行標記。但由于頁面上有些項(如:面包屑導航),schema并沒推出相應(yīng)的標記代碼,從而也得仍舊使用data-vocabulary來標記,這樣的話頁面代碼上就會出現(xiàn)新舊代碼并存的情況,不過這并不妨礙搜索引擎蜘蛛抓取頁面內(nèi)容。
使用數(shù)據(jù)標注工具的話,可以進行簡單的內(nèi)容標記。支持9種標記類型:文章、圖書評論、事件、本地商家、電影、產(chǎn)品、餐館、軟件應(yīng)用和電視續(xù)集。操作時你可以自己創(chuàng)建個網(wǎng)頁集,針對那個類型頁面進行標記,然后谷歌會抓取該類型相關(guān)網(wǎng)頁的內(nèi)容,你進行審核修改,修改后沒問題的話,就點擊確認創(chuàng)建就OK了。
圖源:Edho Pratama/Unsplash
04、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的對比
大數(shù)據(jù)存儲和傳統(tǒng)的數(shù)據(jù)存儲的不同點在于:大數(shù)據(jù)應(yīng)用的一個主要特點是實時性或者近實時性。
類似的,一個投資分析類的應(yīng)用,能為業(yè)務(wù)員從數(shù)量巨大種類繁多的數(shù)據(jù)里快速挖掘出相關(guān)信息,能幫助他們領(lǐng)先于競爭對手做出交易的決定。
數(shù)據(jù)通常以每年增長50%的速度快速激增,尤其是非結(jié)構(gòu)化數(shù)據(jù)。隨著科技的進步,有越來越多的傳感器采集數(shù)據(jù)、移動設(shè)備、社交多媒體等等,所以數(shù)據(jù)只可能繼續(xù)增長。
總而言之,大數(shù)據(jù)需要非常高性能、高吞吐率、大容量的基礎(chǔ)設(shè)備。