這兩天,科技板塊被馬蜂窩數(shù)據(jù)“造假”的事件刷屏了。在一篇《估值175億的旅游獨角獸,是一座僵尸和水軍構(gòu)成的鬼城?》的文章中指出,馬蜂窩有1800萬條數(shù)據(jù)是通過爬蟲的方式從大眾點評、攜程、美團等競爭對手的平臺上獲取的。目前馬蜂窩方面對此事做出了回應(yīng),聲稱原作者是有組織有預謀的抹黑,并對原作者梓泉及乎睿數(shù)據(jù)進行了起訴。梓泉則在其朋友圈稱“開戰(zhàn)今晚第三篇”,事件至此進入了白熱化階段。
小編剛開始看到這個事件相關(guān)新聞時,說實話,有點蒙蔽。因為小編這種窮屌絲并不知道馬蜂窩是啥?一篇文章為什么能捅馬蜂窩?當然是什么已經(jīng)不重要了,通過這件事,我們更多的普通人或許應(yīng)該跟多的了解那些逐漸滲透到我們生活的大數(shù)據(jù)。本期,小編就帶大家來簡單了解一下大數(shù)據(jù)。
何為大數(shù)據(jù)?
大數(shù)據(jù)其實是個比較籠統(tǒng)和抽象的概念,它以數(shù)據(jù)為核心技術(shù)或者說產(chǎn)業(yè)。主要包括收集數(shù)據(jù)、存儲數(shù)據(jù)、數(shù)據(jù)建模、數(shù)據(jù)分析、數(shù)據(jù)變現(xiàn)等環(huán)節(jié)。大數(shù)據(jù)大的價值在于通過,基于全體的數(shù)據(jù)進行建模分析,來預測未來。(小編也是佩服自己的歸納總結(jié)的能力,看懂的沒看懂的點個贊……)
大數(shù)據(jù)如何獲取?
在馬蜂窩這個事件中,居然有網(wǎng)友質(zhì)疑數(shù)據(jù)是不是由專門團隊一個一個檢查的。這讓小編想起了另一個笑話,今年年初,惠州警方查獲了一家機構(gòu)制作了一個機械手臂,通過不停的點擊屏幕,進行“自動”刷票。其實數(shù)據(jù)抓取和刷票等等行為和過程,完全的可以靠軟件腳本來實現(xiàn),只要有電有網(wǎng)就能實現(xiàn)?,F(xiàn)在很多程序員都在學習Python來爬取網(wǎng)絡(luò)上的數(shù)據(jù),不要求數(shù)據(jù)可視化好看的數(shù)據(jù)的很多都是幾十行代末就可以搞定的。Python有非常多的庫用來抓取,解析網(wǎng)站上的數(shù)據(jù),現(xiàn)在Python工程師在爬蟲、大數(shù)據(jù)、人工智能方向的職位可是需求越來越大了呢。所以有人工抓取核查數(shù)據(jù)之類的想法的朋友們,該轉(zhuǎn)變一下思路了。
大數(shù)據(jù)在生活中有什么作用?
提到大數(shù)據(jù),不得不說的是人工智能,大數(shù)據(jù)是人工智能的“養(yǎng)料”。通過大量的數(shù)據(jù)樣本的進行機器訓練和學習,來了解一群人或者一個人的的生活習慣。然后為相應(yīng)的人群和個體提更加精準的服務(wù)。比如百家號、頭條文章的推送等等。都是后臺通過用戶行為進行分析之后,進行的操作。還有之前比較火的一類產(chǎn)品,智能音箱,也是人工智障……哦,不,人工智能的產(chǎn)物。國內(nèi)各大智能音箱廠商不斷的壓低智能音箱的原因,給用戶帶來實惠的同時,也獲取到大量的數(shù)據(jù)樣本,為自己在人工智能時代來臨前贏得更多“養(yǎng)料”。
大數(shù)據(jù)如何產(chǎn)生利益?
除了上述提到的產(chǎn)品和服務(wù)之外,這些數(shù)據(jù)通常以精準營銷和互聯(lián)網(wǎng)金融的方式變現(xiàn)。你的生活軌跡,消費喜好甚至更隱私的數(shù)據(jù)會被追蹤、拆分、甚至可以直接交易獲取利益。在未來,大數(shù)據(jù)或許有著更大的想象空間。這也是現(xiàn)在大數(shù)據(jù)人才特別搶手的原因。
回歸到馬蜂窩這個事件上來看,小編作為一個科技做工作者,對于數(shù)據(jù)“造假”這種行為并沒有感到吃驚,甚至有點同情。因為在很多網(wǎng)站或者應(yīng)用剛剛起步的時候都會使用類似的手段來留著用戶。這是當前巨頭壟“全方面”壟斷下的互聯(lián)網(wǎng)創(chuàng)業(yè)者的悲哀。而普通用戶著在這場商業(yè)競爭中,體會著什么叫做“總有刁民想害朕”的心情。不過說實話,小編看了一下馬蜂窩,相關(guān)的推送、攻略什么的確實是挺好的。
至于數(shù)據(jù)“造假”這類事情,小編從另一個維度想對互聯(lián)網(wǎng)企業(yè)的老板們說,請善待團隊中的程序員們,別總是天天催更,讓他們改需求。有的時候應(yīng)該停下自己天馬行空(自己為是)的想法,回歸到自己的產(chǎn)品,自己的團隊。敞開自己的心扉,聆聽團隊成員里更多真實的聲音(尤其是程序員之類的產(chǎn)品的生產(chǎn)者的聲音),或許難聽,但往往能從另一個重要的角度來發(fā)現(xiàn)產(chǎn)品和團隊不足。小編不相信,馬蜂窩的軟件團隊會對那些“不干凈的數(shù)據(jù)”不動于衷,或許更多的時候是被分配去做其他事情而忽略了,或許心寒了,最終導致了沒人去收拾那些不堪的過往結(jié)果。相比銷售和財務(wù)報表,他們更加尊重和敬畏那些自己親手爬下來的大數(shù)據(jù)。