大數(shù)據(jù)出現(xiàn)的時(shí)間只有十幾年,被人們廣泛接受并應(yīng)用只有幾年的時(shí)間,但就是這短短幾年的時(shí)間,大數(shù)據(jù)呈現(xiàn)出爆炸式增長的態(tài)勢。在各個(gè)領(lǐng)域,大數(shù)據(jù)的身影幾乎無處不在。今天我們通過一些大數(shù)據(jù)典型的應(yīng)用場景分析,一起來看看大數(shù)據(jù)到底能做些什么,我們學(xué)大數(shù)據(jù)究竟有什么用,應(yīng)該關(guān)注大數(shù)據(jù)的哪些方面。
大數(shù)據(jù)在醫(yī)療健康領(lǐng)域的應(yīng)用
健康醫(yī)療領(lǐng)域是最近幾年獲得最多創(chuàng)業(yè)者和投資人青睞的大數(shù)據(jù)領(lǐng)域。為什么這么說呢?首先,醫(yī)療健康領(lǐng)域會(huì)產(chǎn)生大量的數(shù)據(jù);其次,醫(yī)療健康領(lǐng)域有一個(gè)萬億級(jí)的市場規(guī)模;最關(guān)鍵的是,醫(yī)療健康領(lǐng)域里很多工作依賴人的經(jīng)驗(yàn),而這正是機(jī)器學(xué)習(xí)的強(qiáng)項(xiàng)。
1.醫(yī)學(xué)影像智能識(shí)別
圖像識(shí)別是機(jī)器學(xué)習(xí)獲得的重大突破之一,使用大量的圖片數(shù)據(jù)進(jìn)行深度機(jī)器學(xué)習(xí)訓(xùn)練,機(jī)器可以識(shí)別出特定的圖像元素,比如貓或者人臉,當(dāng)然也可以識(shí)別出病理特征。
比如X光片里的異常病灶位置,是可以通過機(jī)器學(xué)習(xí)智能識(shí)別出來的。甚至可以說醫(yī)學(xué)影像智能識(shí)別在某些方面已經(jīng)比一般醫(yī)生擁有更高的讀圖和識(shí)別能力,但是鑒于醫(yī)療的嚴(yán)肅性,現(xiàn)在還很少有臨床方面的實(shí)踐。
雖然在臨床實(shí)踐方面應(yīng)用有限,但是醫(yī)療影像AI還是在一些領(lǐng)域取得一定的進(jìn)展。醫(yī)學(xué)影像智能識(shí)別,一方面可以幫助醫(yī)生進(jìn)行輔助診療,另一方面對(duì)于皮膚病等有外部表現(xiàn)的病癥,病人可以自己拍照然后使用AI智能識(shí)別做一個(gè)初步診斷。
2.病歷大數(shù)據(jù)智能診療
病歷,特別是專家寫的病歷,本身就是一筆巨大的知識(shí)財(cái)富,利用大數(shù)據(jù)技術(shù)將這些知識(shí)進(jìn)行處理、分析、統(tǒng)計(jì)、挖掘,可以構(gòu)成一個(gè)病歷知識(shí)庫,可以分享給更多人,即構(gòu)成一個(gè)智能輔助診療系統(tǒng)。下面這張圖是我曾經(jīng)參與設(shè)計(jì)過的一個(gè)醫(yī)療輔助診療系統(tǒng)的架構(gòu)。
大數(shù)據(jù)應(yīng)用領(lǐng)域:數(shù)據(jù)驅(qū)動(dòng)一切
針對(duì)同類疾病和其他上下文信息(化驗(yàn)結(jié)果、病史、年齡性別、病人回訪信息等)可以挖掘出針對(duì)同樣的疾病情況,哪種治療手段可以用更低的治療成本、更少的病人痛苦,獲得更好的治療效果。從上面的架構(gòu)圖你能看到,將這些病歷知識(shí)和循證醫(yī)學(xué)知識(shí)、科研文獻(xiàn)知識(shí)、用藥知識(shí)共同構(gòu)成一個(gè)輔助診療知識(shí)庫,通過知識(shí)匹配搜索引擎可以對(duì)外提供服務(wù)?;颊呋蛘哚t(yī)生錄入病史、檢查結(jié)果等信息,系統(tǒng)匹配初步診斷結(jié)果,搜索診療計(jì)劃,產(chǎn)生多個(gè)輔助診療建議,供患者和醫(yī)生進(jìn)行參考。
大數(shù)據(jù)在教育領(lǐng)域的應(yīng)用
教育倡導(dǎo)“因人施教”,但是在傳統(tǒng)教育過程中要做到因人施教,需要老師本身能力很強(qiáng)才能把握好。但是大數(shù)據(jù)在線教育利用大數(shù)據(jù)技術(shù)進(jìn)行分析統(tǒng)計(jì),完全可以做到根據(jù)學(xué)生能力和學(xué)習(xí)節(jié)奏,及時(shí)調(diào)整學(xué)習(xí)大綱和學(xué)習(xí)進(jìn)度,提供個(gè)性化和自適應(yīng)的學(xué)習(xí)體驗(yàn)。除此之外,人工智能在教育的其他方面也取得很好的進(jìn)展。
1.AI外語老師
得益于語音識(shí)別和語音合成技術(shù)的成熟(語音識(shí)別與合成技術(shù)同樣是利用大數(shù)據(jù)技術(shù)進(jìn)行機(jī)器學(xué)習(xí)與訓(xùn)練),一些在線教育網(wǎng)站嘗試用人工智能外語老師進(jìn)行外語教學(xué)。這里面的原理其實(shí)并不復(fù)雜,聊天機(jī)器人技術(shù)已經(jīng)普遍應(yīng)用,只要將學(xué)習(xí)的知識(shí)點(diǎn)設(shè)計(jì)進(jìn)聊天的過程中,就可以實(shí)現(xiàn)一個(gè)簡單的AI外語老師了。
2.智能解題
比較簡單的智能解題系統(tǒng)其實(shí)是利用搜索引擎技術(shù),在收集大量的試題以及答案的基礎(chǔ)上,進(jìn)行試題匹配,將匹配成功的答案返回。這個(gè)過程看起來就像智能做題一樣,表面看給個(gè)題目就能解出答案,而實(shí)際上只是找到答案。
進(jìn)階一點(diǎn)的智能解題系統(tǒng),通過圖像識(shí)別與自然語言處理(這兩項(xiàng)技術(shù)依然使用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)),進(jìn)行相似性匹配。更改試題的部分?jǐn)?shù)字、文字表述,但是不影響實(shí)質(zhì)性解答思路,依然可以解答。
高階的智能解題系統(tǒng),利用神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)技術(shù),將試題的自然語言描述轉(zhuǎn)化成形式語言,然后分析知識(shí)點(diǎn)和解題策略,進(jìn)行自動(dòng)推導(dǎo),從而完成實(shí)質(zhì)性的解題。
大數(shù)據(jù)在社交媒體領(lǐng)域的應(yīng)用
大數(shù)據(jù)有一個(gè)重要的、和我們大多數(shù)人密切相關(guān),但是又不太引人注目的一個(gè)應(yīng)用領(lǐng)域是輿情監(jiān)控與分析。我們?nèi)粘T诟鞣N互聯(lián)網(wǎng)應(yīng)用和社交媒體上發(fā)表各種言論,這些言論事實(shí)上反映了最準(zhǔn)確的民情輿論。一個(gè)個(gè)體的言論基本沒有意義,但是大量的、全國乃至全球的言論數(shù)據(jù)表現(xiàn)出的統(tǒng)計(jì)特性,就有了非常重要的意義。
編寫數(shù)據(jù)爬蟲,實(shí)時(shí)爬取各個(gè)社交新媒體上的各種用戶內(nèi)容和媒體信息,然后通過自然語言處理,就可以進(jìn)行情感分析、熱點(diǎn)事件追蹤等。輿情實(shí)時(shí)監(jiān)控可用于商業(yè)領(lǐng)域,引導(dǎo)智能廣告投放;可用于金融領(lǐng)域,輔助執(zhí)行自動(dòng)化股票、期權(quán)、數(shù)字貨幣交易;可用于社會(huì)管理,及時(shí)發(fā)現(xiàn)可能引發(fā)社會(huì)問題的輿論傾向。
在美國總統(tǒng)大選期間,候選人就曾雇傭大數(shù)據(jù)公司利用社交媒體的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)選票可能搖擺的地區(qū),有針對(duì)性前去進(jìn)行競選演講。并利用大數(shù)據(jù)分析選民關(guān)注的話題,包裝自己的競選主張。Facebook也因?yàn)槭跈?quán)大數(shù)據(jù)公司濫用自己用戶的數(shù)據(jù)而遭到調(diào)查和譴責(zé),市值蒸發(fā)了數(shù)百億美元。
大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用
大數(shù)據(jù)在金融領(lǐng)域應(yīng)用比較成熟的是大數(shù)據(jù)風(fēng)控。在金融借貸中,如何識(shí)別出高風(fēng)險(xiǎn)用戶,要求其提供更多抵押、支付更高利息、調(diào)整更低的額度,甚至拒絕貸款,從而降低金融機(jī)構(gòu)的風(fēng)險(xiǎn)?事實(shí)上,金融行業(yè)已經(jīng)沉淀了大量的歷史數(shù)據(jù),利用這些數(shù)據(jù)進(jìn)行計(jì)算,可以得到用戶特征和風(fēng)險(xiǎn)指數(shù)的曲線(即風(fēng)控模型)。當(dāng)新用戶申請(qǐng)貸款的時(shí)候,將該用戶特征帶入曲線進(jìn)行計(jì)算,就可以得到該用戶的風(fēng)險(xiǎn)指數(shù),進(jìn)而自動(dòng)給出該用戶的貸款策略。
利用股票、外匯等歷史交易記錄,分析交易規(guī)律,結(jié)合當(dāng)前的新聞熱點(diǎn)、輿論傾向、財(cái)經(jīng)數(shù)據(jù)構(gòu)建交易模型,進(jìn)行自動(dòng)化交易,這就是金融領(lǐng)域的量化交易。這些數(shù)據(jù)量特別巨大,交易涉及金額也同樣巨大,所以金融機(jī)構(gòu)在大數(shù)據(jù)領(lǐng)域常常不惜血本,大手筆投入。
大數(shù)據(jù)在新零售領(lǐng)域的應(yīng)用
區(qū)別于傳統(tǒng)零售,新零售使用大數(shù)據(jù)進(jìn)行全鏈路管理。從生產(chǎn)、物流、購物體驗(yàn),使用大數(shù)據(jù)進(jìn)行分析和預(yù)判,實(shí)現(xiàn)精準(zhǔn)生產(chǎn)、零庫存、全新的購物體驗(yàn)。
亞馬遜Go無人店使用大量的攝像頭,實(shí)時(shí)捕捉用戶行為,判斷用戶取出還是放回商品、取了何種商品等。這實(shí)際上是大數(shù)據(jù)流計(jì)算與機(jī)器學(xué)習(xí)的結(jié)合,最終實(shí)現(xiàn)的購物效果是,無需排隊(duì)買單,進(jìn)去就拿東西,拿好了就走,超級(jí)科幻有沒有。
雖然無人店現(xiàn)在看起來噱頭的意味更多一點(diǎn),但是利用大數(shù)據(jù)技術(shù)提升購物體驗(yàn)、節(jié)省商家人力成本一定是正確的方向。
大數(shù)據(jù)在交通領(lǐng)域的應(yīng)用
交通也是一個(gè)對(duì)大數(shù)據(jù)實(shí)時(shí)采集與處理應(yīng)用比較廣的領(lǐng)域?,F(xiàn)在幾乎所有的城市路段、交通要點(diǎn)都有不止一個(gè)監(jiān)控?cái)z像頭在實(shí)時(shí)監(jiān)控,一線城市大約有百萬計(jì)的攝像頭在不停地采集數(shù)據(jù)。這些數(shù)據(jù)一方面可以用于公共安全,比如近年來一些警匪片里會(huì)有一些場景:犯罪嫌疑人駕車出逃,警方只要定位了車輛,不管它到哪里,系統(tǒng)都可以自動(dòng)調(diào)出相應(yīng)的攝像頭,實(shí)時(shí)看到現(xiàn)場畫面。應(yīng)該說這項(xiàng)技術(shù)已經(jīng)成熟,大數(shù)據(jù)流計(jì)算可以對(duì)百萬計(jì)的流數(shù)據(jù)實(shí)時(shí)處理計(jì)算,電影里的場景計(jì)算其實(shí)并不復(fù)雜。
此外,各種導(dǎo)航軟件也在不停采集數(shù)據(jù),通過分析用戶當(dāng)前位置和移動(dòng)速度,判斷道路擁堵狀態(tài),并實(shí)時(shí)修改推薦的導(dǎo)航路徑。你如果經(jīng)常開車或者打車,對(duì)這些技術(shù)一定深有體會(huì)。
還有就是無人駕駛技術(shù),無人駕駛就是在人的駕駛過程中實(shí)時(shí)采集車輛周邊數(shù)據(jù)和駕駛控制信息,然后通過機(jī)器學(xué)習(xí),獲得周邊信息與駕駛方式的對(duì)應(yīng)關(guān)系(自動(dòng)駕駛模型)。然后將這個(gè)模型應(yīng)用到無人駕駛汽車上,傳感器獲得車輛周邊數(shù)據(jù)后,就可以通過自動(dòng)駕駛模型計(jì)算出車輛控制信息(轉(zhuǎn)向、剎車等)。計(jì)算自動(dòng)駕駛模型需要大量的數(shù)據(jù),所以我們看到,這些無人駕駛創(chuàng)業(yè)公司都在不斷攀比自己的訓(xùn)練數(shù)據(jù)有幾十萬公里、幾百萬公里,因?yàn)橛?xùn)練數(shù)據(jù)的量意味著模型的完善程度。
小結(jié)
正如我前面所說,利用大數(shù)據(jù)和機(jī)器學(xué)習(xí),發(fā)掘數(shù)據(jù)中的規(guī)律,進(jìn)而對(duì)當(dāng)前的事情做出預(yù)測和判斷,使機(jī)器表現(xiàn)出智能的特性,正變得越來越普及。
大數(shù)據(jù)主要來自企業(yè)自身所產(chǎn)生,還有一些數(shù)據(jù)來自互聯(lián)網(wǎng),通過網(wǎng)絡(luò)爬蟲可以獲??;再有就是公共數(shù)據(jù),比如氣象數(shù)據(jù)等。所有這些數(shù)據(jù)匯聚在一起,計(jì)算其內(nèi)在的關(guān)系,可以發(fā)現(xiàn)很多肉眼和思維無法得到的知識(shí)。然后進(jìn)一步計(jì)算其內(nèi)在的模型,可以使系統(tǒng)獲得智能的特性。當(dāng)系統(tǒng)具備智能的特性,可以使機(jī)器對(duì)當(dāng)前的事情做出預(yù)測和判斷,正如我今天和你聊的,大數(shù)據(jù)技術(shù)應(yīng)用正變得越來越普及。
但是,這些數(shù)據(jù)通常非常巨大,存儲(chǔ)、計(jì)算、應(yīng)用都需要一套不同以往的技術(shù)方案。通過前面的內(nèi)容,我?guī)懔私饬舜髷?shù)據(jù)技術(shù)和應(yīng)用的發(fā)展史,以及當(dāng)今大數(shù)據(jù)典型的應(yīng)用領(lǐng)域。從現(xiàn)在開始,我將會(huì)從大數(shù)據(jù)主要產(chǎn)品的架構(gòu)原理、大數(shù)據(jù)分析與應(yīng)用、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法等幾個(gè)維度,全面講解大數(shù)據(jù)的方方面面,相信你一定有所收獲。