當(dāng)我開(kāi)始撰寫(xiě)本文時(shí),我計(jì)劃列出不同類(lèi)型的大數(shù)據(jù)平臺(tái)。但是,經(jīng)過(guò)三天試圖將所有不同的大數(shù)據(jù)產(chǎn)品 - 關(guān)系型與非關(guān)系式,SQL與NoSQL以及數(shù)據(jù)庫(kù)與框架 - 整合在一起,我決定避免這種混亂。
為了增加對(duì)傷害的侮辱,我曾希望介紹創(chuàng)造“ 大數(shù)據(jù) ” 一詞的人作為文章的一部分。但是,我甚至不能這樣做。沒(méi)有達(dá)成一致意見(jiàn)的答案。事實(shí)上,有一個(gè)全面的研究項(xiàng)目,研究誰(shuí)最初提出了大數(shù)據(jù)。相反,我將介紹一些使用大數(shù)據(jù)的關(guān)鍵方法。這更為重要。它比你想象的更有趣,也更令人驚訝。
它是如何發(fā)生的
使用傳統(tǒng)數(shù)據(jù)挖掘的分析師多年來(lái)一直在操縱數(shù)據(jù)。這些分析師現(xiàn)在發(fā)現(xiàn)很難應(yīng)對(duì)企業(yè),私人組織和政府機(jī)構(gòu)節(jié)省的數(shù)據(jù)量和種類(lèi)。
輸入大數(shù)據(jù),這是數(shù)據(jù)挖掘的下一個(gè)發(fā)展步驟。大數(shù)據(jù)旨在處理當(dāng)今數(shù)字世界中創(chuàng)建的海量數(shù)據(jù)庫(kù)和無(wú)數(shù)類(lèi)型的數(shù)據(jù)。如果“大規(guī)模”讓你考慮谷歌及其收集的所有數(shù)據(jù),你就會(huì)陷入困境。令您驚訝的是,谷歌在全球最大數(shù)據(jù)庫(kù)的十大名單中排名第四。截至2014年1月,世界氣候數(shù)據(jù)中心以220TB的數(shù)據(jù)位居榜首,而且任何人都猜測(cè)某些政府機(jī)構(gòu)控制的數(shù)據(jù)庫(kù)的規(guī)模。
當(dāng)然,大數(shù)據(jù)起飛是因?yàn)樗梢圆倏v大量不同的數(shù)據(jù),并發(fā)現(xiàn)驚人的 - 令人驚訝的細(xì)節(jié)和個(gè)人 - 的東西。人力資源行業(yè)分析師John Sumser 提供了以下示例:
“今天我們創(chuàng)建假設(shè)并收集數(shù)據(jù)。明天我們將做反過(guò)來(lái)。持續(xù),穩(wěn)定的數(shù)據(jù)積累將使我們能夠在形成問(wèn)題之前查看數(shù)據(jù)。這意味著我們將得到我們所做的問(wèn)題的答案。”我知道要問(wèn)。我們將不假思索地將一大堆我們認(rèn)為是事實(shí)的東西。“
當(dāng)然,我們都聽(tīng)說(shuō)過(guò)這些數(shù)據(jù)的一些令人毛骨悚然的方式,例如Target能夠在家人發(fā)現(xiàn)之前辨別出一名年輕女子的懷孕。但大數(shù)據(jù)也被用于更不那么險(xiǎn)惡的原因。以下是一些最能充分利用它的組織:
零售商
會(huì)員卡和公司信用卡不是出于對(duì)客戶的禮貌而發(fā)行的。從卡中捕獲的數(shù)據(jù)由大數(shù)據(jù)平臺(tái)處理,為零售商提供信息,使他們能夠更好地決定定價(jià),庫(kù)存控制和客戶激勵(lì)。
大數(shù)據(jù)部分發(fā)揮作用,因?yàn)樵诳紤]客戶數(shù)量,客戶訪問(wèn)次數(shù),產(chǎn)品選擇,商店數(shù)量和在線購(gòu)物時(shí),信息會(huì)迅速累積。大數(shù)據(jù)的使用可能會(huì)對(duì)隱私產(chǎn)生影響,但它也為公司提供了更好地為客戶服務(wù)的方式。
金融部門(mén)
銀行業(yè)全心全意地接受了大數(shù)據(jù)。欺詐檢測(cè)是一個(gè)原因??蛻舻臍v史和交易數(shù)據(jù)可用于檢測(cè)任何不正常的活動(dòng)。例如,當(dāng)您在國(guó)外旅行時(shí),必須告訴您的信用卡提供商(我在瑞典嘗試租車(chē)時(shí)很難理解)。
金融機(jī)構(gòu)還使用大數(shù)據(jù)來(lái)分析交易數(shù)據(jù),允許銀行家根據(jù)市場(chǎng)表現(xiàn)和客戶行為來(lái)確定金融資產(chǎn)的風(fēng)險(xiǎn)。Research Pays的這個(gè)例子提到大數(shù)據(jù)甚至可以幫助找到新辦公室:
“位于佛羅里達(dá)州的SunTrust Bank不僅使用數(shù)據(jù)分析來(lái)確定其下一個(gè)分支機(jī)構(gòu)的位置,還確定了運(yùn)營(yíng)其分支機(jī)構(gòu)所需的最佳管理資格。”
衛(wèi)生保健
一個(gè)明顯的區(qū)域大數(shù)據(jù)將有助于安全,準(zhǔn)確地處理醫(yī)療機(jī)構(gòu)的電子健康記錄。準(zhǔn)確的記錄將為患者提供更好的服務(wù)并減少錯(cuò)誤。出于顯而易見(jiàn)的原因,醫(yī)療保健領(lǐng)域正在以較慢的速度調(diào)整大數(shù)據(jù),以符合有關(guān)患者機(jī)密性的政府法規(guī)。
如前所述,眾所周知,大數(shù)據(jù)可以為未提出的問(wèn)題提供答案。在醫(yī)療保健領(lǐng)域,這可能意味著找到一種新的藥物或治療方法,否則就無(wú)法找到。據(jù)麥肯錫公司稱,大數(shù)據(jù)可以在不遠(yuǎn)的將來(lái)實(shí)現(xiàn)以下目標(biāo):
生物過(guò)程和藥物的預(yù)測(cè)模型變得更加復(fù)雜和廣泛。
根據(jù)更多信息來(lái)源(例如社交媒體)確定患者參加臨床試驗(yàn)。
實(shí)時(shí)監(jiān)控試驗(yàn),以快速識(shí)別安全或操作問(wèn)題。
而不是難以利用的僵化數(shù)據(jù)孤島,數(shù)據(jù)以電子方式捕獲并在不同單元之間輕松流動(dòng)。
大數(shù)據(jù),大機(jī)遇
雖然某些特定領(lǐng)域正在利用大數(shù)據(jù),但它為以下領(lǐng)域的所有組織提供了機(jī)會(huì):
社交媒體
大數(shù)據(jù)能夠近乎實(shí)時(shí)地分析社交網(wǎng)絡(luò)帖子(例如Twitter和Facebook),使公司,品牌和組織有機(jī)會(huì)確定客戶/會(huì)員忠誠(chéng)度以及客戶對(duì)產(chǎn)品和/或服務(wù)的感受。
大數(shù)據(jù)和社交媒體之間的交集使組織能夠確定哪些客戶對(duì)該特定社交網(wǎng)絡(luò)的其他成員具有最大影響力。研究表明,這些人對(duì)公司而言比最高消費(fèi)者更重要。
營(yíng)銷(xiāo)
毫無(wú)疑問(wèn),營(yíng)銷(xiāo)人員喜歡大數(shù)據(jù)。他們擁有的數(shù)據(jù)越多,他們的感受就越好。他們之前沒(méi)有的營(yíng)銷(xiāo)人員提供的大數(shù)據(jù)是能夠挖掘客戶對(duì)其產(chǎn)品行為的細(xì)節(jié)。營(yíng)銷(xiāo)公司360i表示,大數(shù)據(jù)有助于:
保留和追加現(xiàn)有客戶
識(shí)別新客戶
揭示新的營(yíng)銷(xiāo)機(jī)會(huì)
推動(dòng)更有利可圖的廣告
更準(zhǔn)確地衡量廣告系列的影響力
接下來(lái),看看IT和研發(fā)
可以理解的是,大數(shù)據(jù)將在當(dāng)今的研發(fā)部門(mén)中發(fā)揮作用。為了更好地了解情況,我與圣托馬斯大學(xué)軟件研究生課程副教授布拉德魯賓博士進(jìn)行了交談。在審核了他的一些課程后,魯賓的大數(shù)據(jù)專業(yè)知識(shí)變得明顯。
研究與開(kāi)發(fā)
大數(shù)據(jù)使公司,大學(xué)和政府機(jī)構(gòu)都可以從大數(shù)據(jù)吸收大量非結(jié)構(gòu)化數(shù)據(jù)的能力中受益,讓科學(xué)家更好地了解正在發(fā)生的事情。我想到了H. James Harrington的名言:
“測(cè)量是導(dǎo)致控制并最終改進(jìn)的第一步。如果你無(wú)法衡量某些東西,你就無(wú)法理解它。如果你無(wú)法理解它,你就無(wú)法控制它。如果你不能控制它,你無(wú)法改善它。“
魯賓提供了一個(gè)有趣的故事,講述了該大學(xué)基于Hadoop的大數(shù)據(jù)平臺(tái)如何能夠解決由圣托馬斯大學(xué)的賈丁杰克遜博士領(lǐng)導(dǎo)的研究項(xiàng)目。杰克遜試圖使用一個(gè)Matlab工作站解密幾兆兆字節(jié)的大腦腦電圖波形。
魯賓很快就讓杰克遜使用了Hadoop集群。對(duì)于這兩位教授來(lái)說(shuō),這似乎是雙贏的局面。杰克遜會(huì)盡快將他的數(shù)據(jù)處理60%,而魯賓和他的學(xué)生將獲得寶貴的經(jīng)驗(yàn)。192核Hadoop集群在一小時(shí)內(nèi)完成,Matlab設(shè)置需要10個(gè)小時(shí)才能完成。此外,集群可以并行執(zhí)行許多這些分析,從而進(jìn)一步提高生產(chǎn)力。
這是最終報(bào)告,詳細(xì)描述了這項(xiàng)研究。
網(wǎng)絡(luò)監(jiān)控
幾乎所有計(jì)算和網(wǎng)絡(luò)設(shè)備都記錄數(shù)據(jù)??焖儆涗浀臄?shù)據(jù)量變得難以處理。大數(shù)據(jù)可以輕松管理大量數(shù)據(jù),允許管理員監(jiān)控網(wǎng)絡(luò)活動(dòng),診斷問(wèn)題,或者在Rubin給我的示例中,查找可能表明惡意軟件活動(dòng)的某些網(wǎng)絡(luò)流量模式。
值得關(guān)注的東西
如果您查看招聘廣告,就需要大數(shù)據(jù)專家。我問(wèn)魯賓這件事。他同意,提到他的學(xué)生對(duì)他們的前景感到興奮。然后我意識(shí)到大數(shù)據(jù)平臺(tái),特別是那些被認(rèn)為是開(kāi)源的平臺(tái),遵循的時(shí)間表非常類(lèi)似于Linux成為主流的方式。
大學(xué)采用大數(shù)據(jù)平臺(tái)的開(kāi)源版本,特別是Hadoop,因?yàn)樗鼈兪敲赓M(fèi)的,學(xué)生可以操縱源代碼。因此,填補(bǔ)所有職位空缺的畢業(yè)生更愿意使用開(kāi)源平臺(tái),因?yàn)檫@是他們最了解的。觀看會(huì)很有趣。