什么是大數(shù)據(jù)時代?
最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”“大數(shù)據(jù)”在物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關注。
中國區(qū)域經(jīng)濟閃電圖
大數(shù)據(jù)時代背景
進入2012年,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量據(jù),并命名與之相關的技術發(fā)展與創(chuàng)新。它已經(jīng)上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然很多企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,“大數(shù)據(jù)”時代已經(jīng)降臨,在商業(yè)、經(jīng)濟及其他領域中,決策將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗和直覺。
哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注。大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
在現(xiàn)今的社會,大數(shù)據(jù)的應用越來越彰顯他的優(yōu)勢,它占領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數(shù)據(jù)進行發(fā)展的領域正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務,創(chuàng)新運營模式。有了大數(shù)據(jù)這個概念,對于消費者行為的判斷,產(chǎn)品銷售量的預測,精確的營銷范圍以及存貨的補給已經(jīng)得到全面的改善與優(yōu)化。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運營中生成、累積的用戶網(wǎng)絡行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來衡量。
大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部內(nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數(shù)量37.1萬……
截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數(shù)據(jù)公司(IDC)的研究結果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長為1.2ZB,2011年的數(shù)量更是高達1.82ZB,相當于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達到今天的44倍。[5]每一天,全世界會上傳超過5億張圖片,每分鐘就有20小時時長的視
頻被分享。然而,即使是人們每天創(chuàng)造的全部信息——包括語音通話、電子郵件和信息在內(nèi)的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創(chuàng)造出的關于人們自身的數(shù)字信息量。
這樣的趨勢會持續(xù)下去。我們現(xiàn)在還處于所謂“物聯(lián)網(wǎng)”的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通??萍嫉倪M步已經(jīng)使創(chuàng)造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務之上的商業(yè)投資也增長了整整50%,達到了4000億美元。
大數(shù)據(jù)的精髓
大數(shù)據(jù)帶給我們的三個顛覆性觀念轉變:是全部數(shù)據(jù),而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。
A.不是隨機樣本,而是全體數(shù)據(jù):在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關的所有數(shù)據(jù),而不再依賴于隨機采樣(隨機采樣,以前我們通常把這看成是理所應當?shù)南拗?,但高性能的?shù)字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數(shù)據(jù)很少,所以我們必須盡可能精確地量化我們的記錄,隨著規(guī)模的擴大,對精確度的癡迷將減弱;擁有了大數(shù)據(jù),我們不再需要對一個現(xiàn)象刨根問底,只要掌握了大體的發(fā)展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷于找因果關系,尋找因果關系是人類長久以來的習慣,在大數(shù)據(jù)時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能準確地告訴我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。
數(shù)據(jù)價值
大數(shù)據(jù)時代,什么最貴?
十年前,葛大爺曾說過,“21世紀什么最貴?”——“人才”,深以為然。只是,十年后的今天,大數(shù)據(jù)時代也帶來了身價不斷翻番的各種數(shù)據(jù)。由于急速拓展的網(wǎng)絡帶寬以及各種穿戴設備所帶來的大量數(shù)據(jù),數(shù)據(jù)的增長從未停歇,甚至呈井噴式增長。
一分鐘內(nèi),微博推特上新發(fā)的數(shù)據(jù)量超過10萬;社交網(wǎng)絡“臉譜”的瀏覽量超過600萬……
這些龐大數(shù)字,意味著什么?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。事實上,當你仍然在把微博等社交平臺當作抒情或者發(fā)議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯(lián)網(wǎng)的“數(shù)據(jù)財富”,先人一步用其預判市場走勢,而且取得了不俗的收益。
讓我們一起來看看——他們是怎么做的。這些數(shù)據(jù)都能干啥。具體有六大價值:
華爾街根據(jù)民眾情緒拋售股票;
對沖基金依據(jù)購物網(wǎng)站的顧客評論,分析企業(yè)產(chǎn)品銷售狀況;
銀行根據(jù)求職網(wǎng)站的崗位數(shù)量,推斷就業(yè)率;
投資機構搜集并分析上市企業(yè)聲明,從中尋找破產(chǎn)的蛛絲馬跡;
美國疾病控制和預防中心依據(jù)網(wǎng)民搜索,分析全球范圍內(nèi)流感等病疫的傳播狀況;
美國總統(tǒng)奧巴馬的競選團隊依據(jù)選民的微博,實時分析選民對總統(tǒng)競選人的喜好。
數(shù)據(jù)的可視化
“數(shù)據(jù)是新的石油。”亞馬遜前任首席科學家Andreas Weigend說。Instagram以10億美元出售之時,成立于1881年的世界最大影像產(chǎn)品及服務商柯達正申請破產(chǎn)。
大數(shù)據(jù)是如此重要,以至于其獲取、儲存、搜索、共享、分析,乃至可視化地呈現(xiàn),都成為了當前重要的研究課題。
“當時時變幻的、海量的數(shù)據(jù)出現(xiàn)在眼前,是怎樣一幅壯觀的景象?在后臺注視著這一切,會不會有接近上帝俯視人間星火的感覺?”
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發(fā)過國內(nèi)第一個大規(guī)模中英文搜索引擎系統(tǒng)“天網(wǎng)”。
要知道,劉建國曾任至百度的首席技術官,在這樣一家每天需應對網(wǎng)民各種搜索請求1.7億次(2013年約為8.77億次)的網(wǎng)站中,如果只是在后臺靜靜端坐,可能片刻都不能安心吧。百度果然在提供搜索服務之外,逐漸增添了百度指數(shù),后又建立了基于網(wǎng)民搜索數(shù)據(jù)的重要產(chǎn)品“貼吧”及百度統(tǒng)計產(chǎn)品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經(jīng)在大數(shù)據(jù)中有接近上帝俯視的感覺,美國洛杉磯就有企業(yè)宣稱,他們將全球夜景的歷史數(shù)據(jù)建立模型,在過濾掉波動之后,做出了投資房地產(chǎn)和消費的研究報告。
在數(shù)據(jù)可視化呈現(xiàn)方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小伙子,被Facebook高價挖角,進入其數(shù)據(jù)研究小組。他后來驚訝地發(fā)現(xiàn),里面全是來自物流企業(yè)、供應鏈方面的技術人員和專家,“Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。”
大數(shù)據(jù)時代特征
數(shù)據(jù)量大(Volume)
第一個特征是數(shù)據(jù)量大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
類型繁多(Variety)
第二個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。
價值密度低(Value)
第三個特征是數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。
速度快、時效高(Velocity)
第四個特征是處理速度快,時效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。
既有的技術架構和路線,已經(jīng)無法高效處理如此海量的數(shù)據(jù),而對于相關組織來說,如果投入巨大采集的信息無法通過及時處理反饋有效信息,那將是得不償失的。可以說,大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
大數(shù)據(jù)時代案例分析
個案一
你開心他就買你焦慮他就拋
華爾街“德溫特資本市場”公司首席執(zhí)行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以“1”到“50”進行打分。根據(jù)打分結果,霍廷再決定如何處理手中數(shù)以百萬美元計的股票。
霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當年第一季度,霍廷的公司獲得了7%的收益率。
個案二
國際商用機器公司(IBM)估測,這些“數(shù)據(jù)”值錢的地方主要在于時效。對于片刻便能定輸贏的華爾街,這一時效至關重要。曾經(jīng),華爾街2%的企業(yè)搜集微博等平臺的“非正式”數(shù)據(jù);如今,接近半數(shù)企業(yè)采用了這種手段。
●“社會流動”創(chuàng)業(yè)公司在“大數(shù)據(jù)”行業(yè)生機勃勃,和微博推特是合作伙伴。它分析數(shù)據(jù),告訴廣告商什么是正確的時間,誰是正確的用戶,什么是應該發(fā)表的正確內(nèi)容,備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture(著名的網(wǎng)頁流量分析工具)公司,你可以知道有多少人訪問你的網(wǎng)站,以及他們呆了多長時間——這些數(shù)據(jù)對于任何企業(yè)來說都至關重要。詹姆斯把公司賣掉,進賬18億美元。
●微軟專家吉拉德喜歡把這些“大數(shù)據(jù)”結果可視化:他把客戶請到辦公室,將包含這些公司的數(shù)據(jù)圖譜展現(xiàn)出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談論什么話題。
●“臉譜”數(shù)據(jù)分析師杰弗遜的工作就是搭建數(shù)據(jù)分析模型,弄清楚用戶點擊廣告的動機和方式。
大數(shù)據(jù)處理和分析工具
用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈。開源大數(shù)據(jù)生態(tài)圈:
1、Hadoop HDFS、HadoopMapReduce,HBase、Hive漸次誕生,早期Hadoop生態(tài)圈逐步形成。
2、.Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
3、NoSQL,membase、MongoDb
商用大數(shù)據(jù)生態(tài)圈:
1、一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza),OracleExadata,SAP Hana等等。
2、數(shù)據(jù)倉庫:TeradataAsterData,EMC GreenPlum,HPVertica等等。3、數(shù)據(jù)集市:QlikView、Tableau、以及國內(nèi)的Yonghong Data Mart。
大數(shù)據(jù)時代產(chǎn)業(yè)
越來越多的政府、企業(yè)等機構開始意識到數(shù)據(jù)正在成為組織最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為組織的核心競爭力。具體有以下三大案例:
1、2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數(shù)據(jù)相關產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家意志。奧巴馬政府將數(shù)據(jù)定義為“未來的新石油”,并表示一個國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數(shù)據(jù)的占有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產(chǎn)。
2、聯(lián)合國也在2012年發(fā)布了大數(shù)據(jù)政務白皮書,指出大數(shù)據(jù)對于聯(lián)合國和各國政府來說是一個歷史性的機遇,人們?nèi)缃窨梢允褂脴O為豐富的數(shù)據(jù)資源,來對社會經(jīng)濟進行前所未有的實時分析,幫助政府更好地響應社會和經(jīng)濟運行。
3、而最為積極的還是眾多的IT企業(yè)。麥肯錫在一份名為《大數(shù)據(jù),是下一輪創(chuàng)新、競爭和生產(chǎn)力的前沿》的專題研究報告中提出,“對于企業(yè)來說,海量數(shù)據(jù)的運用將成為未來競爭和增長的基礎”,該報告在業(yè)界引起廣泛反響。
IBM則提出,上一個十年,他們拋棄了PC,成功轉向了軟件和服務,而這次將遠離服務與咨詢,更多地專注于因大數(shù)據(jù)分析軟件而帶來的全新業(yè)務增長點。IBM執(zhí)行總裁羅睿蘭認為,“數(shù)據(jù)將成為一切行業(yè)當中決定勝負的根本因素,最終數(shù)據(jù)將成為人類至關重要的自然資源。”
在國內(nèi),百度已經(jīng)致力于開發(fā)自己的大數(shù)據(jù)處理和存儲系統(tǒng);騰訊也提出2013年已經(jīng)到了數(shù)據(jù)化運營的黃金時期,如何整合這些數(shù)據(jù)成為未來的關鍵任務。
事實上,自2009年以來,有關“大數(shù)據(jù)”主題的并購案層出不窮,且并購數(shù)量和規(guī)模呈逐步上升的態(tài)勢。其中,Oracle對Sun、惠普對Autonomy兩大并購案總金額高達176億美元,大數(shù)據(jù)的產(chǎn)業(yè)價值由此可見一斑。