許多系統(tǒng)或平臺(tái)的業(yè)務(wù),都需要將處理結(jié)果以某種形式展示給用戶:百度需要根據(jù)用戶的搜索關(guān)鍵詞展示可能的結(jié)果網(wǎng)頁(yè),淘寶需要根據(jù)用戶的關(guān)鍵詞展示相應(yīng)的商品信息,去哪兒需要根據(jù)搜索展示符合條件的機(jī)票信息,前程無(wú)憂需要根據(jù)HR的搜索展示合適的候選人簡(jiǎn)歷等。這些本來是他們的正常的業(yè)務(wù)提供流程。但在大數(shù)據(jù)的年代,這些正常的業(yè)務(wù)流程,也容易出現(xiàn)數(shù)據(jù)的不安全因素。
結(jié)果呈現(xiàn)導(dǎo)致知識(shí)產(chǎn)權(quán)安全風(fēng)險(xiǎn)
360曾經(jīng)上線的綜合搜索,其實(shí)是把其它搜索引擎的結(jié)果采集過來,然后再對(duì)各家搜索引擎結(jié)果進(jìn)行綜合,展示搜索結(jié)果,我們一般在技術(shù)上稱為元搜索引擎。今日頭條剛開始本身并沒有生成任何資訊,只是把各家新聞?wù)军c(diǎn)的新聞都采集過來,然后進(jìn)行分析和整理,以自己的形式展示出來。我們先姑且不去探討這其中的誰(shuí)是誰(shuí)非的法律問題。但是可以看出:在大數(shù)據(jù)年代,結(jié)果的呈現(xiàn)會(huì)有許許多多的安全問題,或者說知識(shí)產(chǎn)權(quán)的問題。
相關(guān)關(guān)系泄露商業(yè)機(jī)密
如果你認(rèn)為360的綜合搜索、今日頭條的新聞推薦還沒有太多直接的大數(shù)據(jù)的特征,那么你一定還記得大數(shù)據(jù)的第一個(gè)商業(yè)應(yīng)用吧。2003年(那時(shí)候還沒有大數(shù)據(jù)的概念),奧倫-埃齊奧尼(Oren Etzioni)準(zhǔn)備乘坐從西雅圖到洛杉磯的飛機(jī)去參加弟弟的婚禮。他知道飛機(jī)票越早預(yù)訂越便宜,于是他在這個(gè)大喜日子來臨之前的幾個(gè)月,就在網(wǎng)上預(yù)訂了一張去洛杉磯的機(jī)票。在飛機(jī)上,埃齊奧尼好奇地問幾位鄰座的乘客花了多少錢購(gòu)買機(jī)票。當(dāng)?shù)弥腥说臋C(jī)票比他買得更晚,但是票價(jià)卻比他便宜得多時(shí),他感到非常氣憤。飛機(jī)著陸之后,埃齊奧尼下定決心要幫助人們開發(fā)一個(gè)系統(tǒng),用來推測(cè)當(dāng)前網(wǎng)頁(yè)上的機(jī)票價(jià)格是否合理。
這個(gè)小項(xiàng)目逐漸發(fā)展成為一家得到了風(fēng)險(xiǎn)投資基金支持的科技創(chuàng)業(yè)公司,名為Farecast。到2012年為止,F(xiàn)arecast系統(tǒng)用了將近十萬(wàn)億條價(jià)格記錄來幫助預(yù)測(cè)美國(guó)國(guó)內(nèi)航班的票價(jià)。Farecast票價(jià)預(yù)測(cè)的準(zhǔn)確度已經(jīng)高達(dá)75%,使用Farecast票價(jià)預(yù)測(cè)工具購(gòu)買機(jī)票的旅客,平均每張機(jī)票可節(jié)省50美元。2008年,埃齊奧尼計(jì)劃將這項(xiàng)技術(shù)應(yīng)用到其他領(lǐng)域,比如賓館預(yù)訂、二手車購(gòu)買等。只要這些領(lǐng)域內(nèi)的產(chǎn)品差異不大,同時(shí)存在大幅度的價(jià)格差和大量可運(yùn)用的數(shù)據(jù),就都可以應(yīng)用這項(xiàng)技術(shù)。但是在他實(shí)現(xiàn)計(jì)劃之前,微軟公司找上了他并以1.1億美元的價(jià)格收購(gòu)了Farecast公司。而后,這個(gè)系統(tǒng)被并入必應(yīng)搜索引擎。
關(guān)聯(lián)分析泄露商業(yè)機(jī)密
FareCast將大數(shù)據(jù)思維方式用到了極致,尤其是相關(guān)思維。招聘網(wǎng)站現(xiàn)有的商業(yè)模式在大數(shù)據(jù)年代也有很多問題。招聘網(wǎng)站是一個(gè)撮合型的簡(jiǎn)歷交易平臺(tái),候選人上傳簡(jiǎn)歷,招聘網(wǎng)站對(duì)簡(jiǎn)歷的手機(jī)號(hào)碼、郵箱等信息進(jìn)行屏蔽。當(dāng)HR瀏覽了候選人的簡(jiǎn)歷,需要跟候選人聯(lián)系的時(shí)候,招聘網(wǎng)站收取費(fèi)用。這個(gè)商業(yè)模式在大數(shù)據(jù)年代很容易被攻破。例如職品匯等公司一直關(guān)注人力資源的大數(shù)據(jù)挖掘,當(dāng)通過分布式多賬號(hào)采集了招聘網(wǎng)站的大量沒有聯(lián)系方式的簡(jiǎn)歷后,再采集大量其他Profile數(shù)據(jù),例如微博數(shù)據(jù)、領(lǐng)英數(shù)據(jù)、脈脈數(shù)據(jù)、人人數(shù)據(jù)等,各類數(shù)據(jù)可以通過內(nèi)容的相似度進(jìn)行融合,融合后數(shù)據(jù)可以進(jìn)行互相補(bǔ)充,在簡(jiǎn)歷中沒有的聯(lián)系方式等信息很容易通過其它數(shù)據(jù)源獲取。(文/龔才春)