美國(guó)總統(tǒng)競(jìng)選前,一些國(guó)外的大數(shù)據(jù)預(yù)測(cè)公司預(yù)測(cè)特朗普將連任,但是最終拜登當(dāng)選了,現(xiàn)實(shí)打了臉。有些人疑問(wèn),大數(shù)據(jù)預(yù)測(cè)難道和算命術(shù)一樣不準(zhǔn)嗎?
什么是大數(shù)據(jù)預(yù)測(cè)?
一般解釋?zhuān)髷?shù)據(jù)是指海量的數(shù)據(jù)集。如今,萬(wàn)物互聯(lián),尤其是移動(dòng)互聯(lián)網(wǎng)的普及,工作和生活都已經(jīng)離不開(kāi)信息設(shè)備,使用過(guò)程中無(wú)疑會(huì)產(chǎn)生大量的數(shù)據(jù),大數(shù)據(jù)時(shí)代早就來(lái)臨。
我國(guó)網(wǎng)民數(shù)量全球第一,各種上網(wǎng)活動(dòng)都會(huì)產(chǎn)生數(shù)據(jù),這其中包括網(wǎng)購(gòu),每天千萬(wàn)次以上級(jí)別的交易量。網(wǎng)頁(yè)搜索,同樣產(chǎn)生巨量的數(shù)據(jù)。即使我們不使用網(wǎng)絡(luò),城市里各種各樣持續(xù)運(yùn)行的監(jiān)控以及傳感器,銀行、醫(yī)院、地鐵等單位處理業(yè)務(wù)的應(yīng)用系統(tǒng),都在產(chǎn)生大數(shù)據(jù)。大數(shù)據(jù)無(wú)處不在。
大數(shù)據(jù)預(yù)測(cè)則是大數(shù)據(jù)的核心應(yīng)用,埃里克?西格爾在關(guān)于大數(shù)據(jù)預(yù)測(cè)的書(shū)中曾指出,大數(shù)據(jù)預(yù)測(cè)是通過(guò)學(xué)習(xí)和分析數(shù)據(jù),來(lái)預(yù)測(cè)未來(lái)的一種科學(xué)技術(shù),可以幫助執(zhí)行人更好地決策。
大數(shù)據(jù)預(yù)測(cè)失效
這次美國(guó)大選,特朗普和拜登分屬的共和黨、民主黨都有自己固定的票倉(cāng),在這些州大數(shù)據(jù)預(yù)測(cè)也比較準(zhǔn)。但是,往往決定總統(tǒng)競(jìng)選結(jié)果的是那些搖擺州,搖擺州的民意調(diào)查也經(jīng)常不精準(zhǔn),如何建立有效的預(yù)測(cè)模型,成了預(yù)測(cè)結(jié)果是否準(zhǔn)確的關(guān)鍵。
一家預(yù)測(cè)特朗普連任的大數(shù)據(jù)公司,他們建立的模型是,分析網(wǎng)民搜索特朗普和拜登丑聞的比例。數(shù)據(jù)顯示搜索拜登丑聞的網(wǎng)民遠(yuǎn)多于特朗普,通過(guò)丑聞搜索來(lái)預(yù)測(cè)競(jìng)選結(jié)果,前幾次大選都顯示了這種模型的準(zhǔn)確性。
大數(shù)據(jù)預(yù)測(cè)失效是因?yàn)榻⒌哪P蜏?zhǔn)確性有偏差。
但是,此次特朗普?qǐng)F(tuán)隊(duì)對(duì)美國(guó)疫情的控制不力成為他最大的丑聞,網(wǎng)民查看新冠疫情,或者通過(guò)其他途徑知曉新冠疫情,其實(shí)也是在查看特朗普的丑聞。如果該公司考慮到新冠疫情的搜索情況,重新建立模型,大數(shù)據(jù)預(yù)測(cè)就將變?yōu)榘莸莿龠x。
所以,不是大數(shù)據(jù)預(yù)測(cè)不準(zhǔn),是設(shè)計(jì)大數(shù)據(jù)模型的人沒(méi)有充分考慮到新冠疫情,也沒(méi)有把它納入預(yù)測(cè)模型中。另外數(shù)據(jù)源不準(zhǔn)確,也會(huì)影響預(yù)測(cè)結(jié)果。例如有些人在做民意調(diào)查時(shí),隱藏自己真正內(nèi)心想法,這些都會(huì)變成錯(cuò)誤的數(shù)據(jù)源。
國(guó)內(nèi)一家大數(shù)據(jù)預(yù)測(cè)機(jī)構(gòu)宣布,他們充分考慮了各種因素,建立了正確的預(yù)測(cè)模型,預(yù)測(cè)結(jié)果拜登勝選,說(shuō)明大數(shù)據(jù)預(yù)測(cè)還是可信的。大數(shù)據(jù)預(yù)測(cè)模型的建立非常難,結(jié)果沒(méi)出來(lái)前,我們都沒(méi)法知道誰(shuí)的模型正確,所以大數(shù)據(jù)預(yù)測(cè)有優(yōu)點(diǎn)也有不足,企業(yè)決策需要全面均衡考慮。
應(yīng)用領(lǐng)域多
數(shù)據(jù)每時(shí)每刻都在產(chǎn)生和被記錄,大數(shù)據(jù)預(yù)測(cè)也正在成為各個(gè)領(lǐng)域的關(guān)鍵技術(shù),在我們社會(huì)中發(fā)揮重要作用。
1.天氣預(yù)報(bào)
大數(shù)據(jù)預(yù)測(cè)應(yīng)用的典型案例是天氣預(yù)報(bào),在信息技術(shù)日趨發(fā)達(dá)的今天,在云計(jì)算和人工智能的幫助下,用先進(jìn)的大數(shù)據(jù)技術(shù)處理和融合數(shù)據(jù),氣象預(yù)測(cè)會(huì)越來(lái)越準(zhǔn)確。
氣象數(shù)據(jù),主要來(lái)源于氣象衛(wèi)星、氣象雷達(dá)、氣象站,以及各個(gè)專(zhuān)業(yè)機(jī)構(gòu)的數(shù)據(jù)。天氣預(yù)報(bào)即在海量的“大數(shù)據(jù)”基礎(chǔ)下進(jìn)行預(yù)測(cè)。
中國(guó)氣象局高級(jí)工程師唐千紅指出,不久的將來(lái),地理信息和社會(huì)大數(shù)據(jù)均會(huì)為氣象服務(wù),我們可以精準(zhǔn)了解任何時(shí)間和空間的氣象信息。
2.軍事預(yù)測(cè)
“知己知彼,百戰(zhàn)不殆”。在軍事領(lǐng)域,大數(shù)據(jù)結(jié)合云計(jì)算和人工智能技術(shù)發(fā)揮著重要作用,可以提高軍事預(yù)測(cè)準(zhǔn)確度,為戰(zhàn)略和戰(zhàn)術(shù)提供科學(xué)依據(jù)。
現(xiàn)代武器的信息化程度越來(lái)越高,智能化裝備也在增加,這些軍事裝備可以源源不斷采集各種戰(zhàn)場(chǎng)數(shù)據(jù)。例如,軍事衛(wèi)星和雷達(dá)等系統(tǒng)會(huì)監(jiān)測(cè)到各種數(shù)據(jù);各種用電設(shè)備會(huì)產(chǎn)生電磁輻射,這也是戰(zhàn)場(chǎng)數(shù)據(jù)的一種來(lái)源,將各種數(shù)據(jù)匯集,利用大數(shù)據(jù)技術(shù),可以對(duì)敵我雙方情況掌握更清楚,對(duì)戰(zhàn)爭(zhēng)狀況進(jìn)行有效預(yù)測(cè),并制定更加有效的作戰(zhàn)計(jì)劃。
“兵馬未動(dòng),糧草先行”,后勤補(bǔ)給在戰(zhàn)爭(zhēng)中非常重要,基于大數(shù)據(jù)的預(yù)測(cè)模型,可以采集作戰(zhàn)對(duì)象和作戰(zhàn)環(huán)境等數(shù)據(jù),然后更科學(xué)預(yù)測(cè)出彈藥補(bǔ)給、傷亡情況等,以便最大程度地提供后勤保障。
3.交通預(yù)測(cè)
在城市修路,大數(shù)據(jù)可以分析出最佳路線,建設(shè)單位也可以利用大數(shù)據(jù)預(yù)測(cè),得出未來(lái)的車(chē)流量,就知道該建幾條車(chē)道等,交通管理部門(mén)也可通過(guò)大數(shù)據(jù)預(yù)測(cè),掌握各個(gè)時(shí)間段和區(qū)域的車(chē)流量,實(shí)施智能化的車(chē)輛調(diào)度。
我們經(jīng)常使用的導(dǎo)航軟件,后臺(tái)也開(kāi)啟了大數(shù)據(jù)系統(tǒng),可預(yù)測(cè)出最佳路線,隨著技術(shù)的完善,預(yù)測(cè)的路線已經(jīng)越來(lái)越精準(zhǔn)。
4.疫情預(yù)測(cè)
2009年,一家互聯(lián)網(wǎng)科技巨頭利用美國(guó)人在互聯(lián)網(wǎng)的搜索數(shù)據(jù),與歷史上流感傳播期的數(shù)據(jù)進(jìn)行對(duì)比,并用預(yù)測(cè)模型進(jìn)行分析,成功預(yù)測(cè)了2009年的美國(guó)流感,并把位置精細(xì)到州和地區(qū),比官方數(shù)據(jù)更精準(zhǔn),時(shí)間更早。
此次新冠疫情,也有大數(shù)據(jù)預(yù)測(cè)公司根據(jù)某些國(guó)家的行政政策、人文環(huán)境、衛(wèi)生習(xí)慣、醫(yī)療條件和隔離措施等數(shù)據(jù),預(yù)測(cè)出哪些國(guó)家疫情會(huì)比較嚴(yán)重些。
5.其他應(yīng)用
賽果預(yù)測(cè),有些互聯(lián)網(wǎng)公司利用大數(shù)據(jù)平臺(tái),預(yù)測(cè)體育賽事,也有些和博彩相關(guān)的公司,正在用大數(shù)據(jù)預(yù)測(cè)彩票的結(jié)果。
金融市場(chǎng)預(yù)測(cè),有些金融公司希望借大數(shù)據(jù)預(yù)測(cè)知曉金融市場(chǎng)走向,有個(gè)別公司獲得了一定成功。
物價(jià)指數(shù)預(yù)測(cè),大數(shù)據(jù)預(yù)測(cè)可以更加精準(zhǔn)預(yù)測(cè)物價(jià)趨勢(shì),能提前發(fā)現(xiàn)通貨膨脹或經(jīng)濟(jì)危機(jī)的蛛絲馬跡。
用戶需求預(yù)測(cè),通過(guò)收集消費(fèi)者的上網(wǎng)行為數(shù)據(jù),大數(shù)據(jù)可以分析和洞察消費(fèi)者的需求,相關(guān)的公司可以利用這些分析數(shù)據(jù),推出和優(yōu)化商品。
自然災(zāi)害預(yù)測(cè),在物聯(lián)網(wǎng)時(shí)代,傳感器、攝像頭和無(wú)線通訊遍布全球,利用各種監(jiān)測(cè)設(shè)備采集的大數(shù)據(jù),可以更加有效地預(yù)測(cè)將要發(fā)生的洪澇、高溫等自然災(zāi)害,有利于我們提前做好預(yù)防措施。
除了上面列舉的多個(gè)領(lǐng)域之外,在環(huán)境變化預(yù)測(cè)、污染排放預(yù)測(cè)、未來(lái)健康預(yù)測(cè)、行業(yè)發(fā)展預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估等領(lǐng)域,大數(shù)據(jù)預(yù)測(cè)正在發(fā)揮著重要作用,雖然大數(shù)據(jù)預(yù)測(cè)也未必百分百準(zhǔn)確,但是這是預(yù)測(cè)領(lǐng)域最好的方法。
處理好隱私,發(fā)展更廣
中研普華研究報(bào)告指出,44.1%的受訪企業(yè)表示,隱私保護(hù)成為制約大數(shù)據(jù)發(fā)展的第一障礙,既要保護(hù)好隱私,又要利用這些數(shù)據(jù)做預(yù)測(cè),是大數(shù)據(jù)預(yù)測(cè)公司必須面對(duì)并解決好的難題。
中國(guó)科學(xué)院院士王小云教授指出,在信息時(shí)代,大數(shù)據(jù)面臨嚴(yán)峻的安全問(wèn)題,個(gè)人隱私如何更好的保護(hù)面臨挑戰(zhàn)。舉例說(shuō),我們?cè)诔泻途W(wǎng)上都會(huì)留下購(gòu)物信息,在手機(jī)里存儲(chǔ)個(gè)人秘密,在醫(yī)院里有就診記錄。智慧城市系統(tǒng)有很多傳感器記錄,我們的指紋、臉部識(shí)別照片經(jīng)常被其他機(jī)構(gòu)獲取。而這些信息如果被泄露,可能會(huì)為黑色產(chǎn)業(yè)鏈提供財(cái)富。
大數(shù)據(jù)預(yù)測(cè)公司使用這些數(shù)據(jù)時(shí),需要格外小心,既要做到不侵犯他人隱私,也要有足夠的措施保護(hù)好數(shù)據(jù)。
王小云教授強(qiáng)調(diào),保護(hù)個(gè)人隱私,法律保障是基礎(chǔ)。在我國(guó),已有了三部法律,分別是電子簽名法、網(wǎng)絡(luò)安全法和電子商務(wù)法,另外,個(gè)人信息保護(hù)法有望出臺(tái),通過(guò)這些法律可為大數(shù)據(jù)保駕護(hù)航。
大數(shù)據(jù)預(yù)測(cè)公司,應(yīng)在符合法律的基礎(chǔ)上,開(kāi)展更多的預(yù)測(cè)應(yīng)用。在未來(lái),大數(shù)據(jù)預(yù)測(cè)的市場(chǎng)會(huì)越來(lái)越大。