基于互聯(lián)的大數(shù)據(jù) 之 ——大數(shù)據(jù)的力量

互聯(lián)網(wǎng)醫(yī)學(xué)新思維
能取得如此令人驚愕的成就,能發(fā)現(xiàn)以往無法揭示的真相,秘籍就是大數(shù)據(jù)分析:谷歌是西方人首選的搜索引擎。該公司強(qiáng)大的數(shù)據(jù)庫保存了來自全球的搜索指令,每天超過30億條,其中的地址信息記錄了用戶從哪兒發(fā)起搜索,可以具體到每個街區(qū)。

任何理論,都要有落地的機(jī)制,需要高新科技的支撐。大數(shù)據(jù)方法就是支撐《醫(yī)學(xué)新思維》的重要力量。

大數(shù)據(jù)是當(dāng)下的熱點(diǎn),抱歉的是,人們被現(xiàn)代科學(xué)所影響,還在傳統(tǒng)的框架下想問題,還沒有真正認(rèn)識到大數(shù)據(jù)的獨(dú)特價值。本人結(jié)合互聯(lián)生產(chǎn)力,結(jié)合醫(yī)學(xué)的任務(wù)和需求,提出了新的見解,供各位朋友借鑒。

《大數(shù)據(jù)時代》有這樣一個例子:在2009年那次著名的甲型HIN1流感爆發(fā)的幾周前,互聯(lián)網(wǎng)巨頭谷歌公司的工程師們在《自然》雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員們和計算機(jī)科學(xué)家感到震驚。文中解釋了谷歌為什么能夠預(yù)測冬季流感的傳播:不僅是全美范圍的傳播,而且可以具體到特定的地區(qū)和州。把谷歌的預(yù)測結(jié)果和政府后來公布的數(shù)據(jù)對比,發(fā)現(xiàn)準(zhǔn)確度達(dá)到97%。

能取得如此令人驚愕的成就,能發(fā)現(xiàn)以往無法揭示的真相,秘籍就是大數(shù)據(jù)分析:谷歌是西方人首選的搜索引擎。該公司強(qiáng)大的數(shù)據(jù)庫保存了來自全球的搜索指令,每天超過30億條,其中的地址信息記錄了用戶從哪兒發(fā)起搜索,可以具體到每個街區(qū)。

海量數(shù)據(jù)如何幫助得到谷歌需要的答案?研究者假設(shè)了兩個事實(shí):人們感受到流感,無論他自己,還是周圍的人得了流感,還是在網(wǎng)上知道了流感傳播的消息,就可能搜索某些特征關(guān)鍵詞,如“咳嗽和發(fā)熱的藥物”、“流感癥狀”、“如何預(yù)防流感”;第二個假設(shè)是,這類習(xí)慣或行為沒有大變化,如果過去幾年發(fā)生過類似的傳染,人們進(jìn)行過某種搜索,新的感冒流行也會觸動類似搜索。

照此思路,谷歌先檢索了5000萬條美國人最頻繁使用的詞條,然后去疾控中心找過去幾年的流感流行統(tǒng)計數(shù)據(jù),監(jiān)測在不同流行情況下這5000萬條記錄的變化規(guī)律。經(jīng)過大量模型運(yùn)算,研究者發(fā)現(xiàn)了45個詞條的組合,能很好地匹配過去每次流行情況。新的流感逼近,人們往往會重復(fù)過去的搜索動作,把近期的搜索過程進(jìn)行類似分析,就能預(yù)測新流感的流行情況。

預(yù)測流感蔓延是專業(yè)任務(wù),谷歌提出的卻是通用解決方案,工程師并不需要醫(yī)學(xué)專家?guī)兔Γ麄円膊魂P(guān)心哪些詞條更重要,所建立的系統(tǒng)并不依賴醫(yī)療相關(guān)的語義理解,他們關(guān)注特定詞條的使用頻率與流感傳播之間的聯(lián)系。這暗示了大數(shù)據(jù)方法的普適性,只要建立一套這樣的系統(tǒng),稍加修改,就可用于其他目的。

大數(shù)據(jù)被奉為至寶,在各行各業(yè)有具體表現(xiàn)。有人根據(jù)過去幾十年的機(jī)票銷售數(shù)據(jù),預(yù)測未來機(jī)票的走向;有人用全球夜景的歷史數(shù)據(jù)建立模型,過濾掉噪音,做出投資房地產(chǎn)和消費(fèi)領(lǐng)域的研究報告;有人根據(jù)社交網(wǎng)絡(luò)中某些詞語的出現(xiàn)頻率,預(yù)測下一部大片的票房收入;研究者發(fā)現(xiàn),用某種文本和語義分析方法對Twitter進(jìn)行監(jiān)測和評估,就能預(yù)測股票趨勢和價格,投資者的收益能夠得到平均15%的提高。

大數(shù)據(jù)允許人們充分思考復(fù)雜的世界,在諸元之間建立聯(lián)系以解決問題。比如,要分析嚴(yán)重霧霾天氣對人的影響,可從移動電信的信號數(shù)據(jù)庫里,取霧霾天氣嚴(yán)重后的幾天內(nèi)去往醫(yī)院基站的數(shù)據(jù),剔除過去的背景行為,就得到因霧霾而產(chǎn)生的數(shù)據(jù),再把這些數(shù)據(jù)和人們在網(wǎng)上的數(shù)據(jù)“雜交”,就能知道是哪些人群容易染病,染病的嚴(yán)重程度、治療過程和結(jié)果等。

這些沖動的本質(zhì),都是從紛繁世界的表象入手,在諸多表象之間建立聯(lián)系,發(fā)現(xiàn)其中恒定不變的東西,并加以利用。

英特爾公司宣布,他們建造了一種單詞預(yù)測機(jī),其核心是大數(shù)據(jù)支撐下的“語境感知”技術(shù),以讓設(shè)備猜到使用者的需求,例如提醒他們預(yù)約的時間,以及去買東西時帶夠錢,工程師說:“未來幾年內(nèi),人們就能同自己的電子設(shè)備‘心心相印’。”這是在挖掘以往的數(shù)據(jù),找出內(nèi)質(zhì)規(guī)律,以預(yù)測下一次行為。

類似思路可以應(yīng)用于醫(yī)學(xué),人們可以充分觀察人的外在表現(xiàn),感知他受到的刺激,理解相應(yīng)的變化,以理解他的內(nèi)質(zhì)。足夠多的樣本整合,就能挖掘很多生命真相。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論