人工智能只是一種技術(shù)手段,數(shù)據(jù)資產(chǎn)最終決定人工智能的行業(yè)應(yīng)用發(fā)展,以及企業(yè)新的市場(chǎng)。
隨著互聯(lián)網(wǎng)、開源、云計(jì)算等技術(shù)的發(fā)展,企業(yè)在技術(shù)上會(huì)越來越接近。
不久的將來,超級(jí)摩爾定律下芯片計(jì)算力會(huì)有更大突破,人工智能作為一種技術(shù)能力將越來越普及,長(zhǎng)期來看,技術(shù)能力上的差異會(huì)越來越小。
在行業(yè)應(yīng)用上,真正能建構(gòu)牢固“護(hù)城河”的核心要素一定落在數(shù)據(jù)上。
那么,數(shù)據(jù)又從哪些維度展開競(jìng)爭(zhēng)呢?
第一,數(shù)據(jù)的品質(zhì)。
比如數(shù)據(jù)的準(zhǔn)確性、完整性、可追溯性、持續(xù)性、真實(shí)性和共享性。這些品質(zhì)決定著人工智能模型的質(zhì)量,也決定最終的落地成果。
第二,數(shù)據(jù)競(jìng)爭(zhēng)存在先發(fā)優(yōu)勢(shì)。
那些占據(jù)著特定的應(yīng)用場(chǎng)景,并且更早、更多地獲取數(shù)據(jù)的領(lǐng)域,人工智能的優(yōu)勢(shì)會(huì)更明顯。
第三,數(shù)據(jù)的安全和隱私保護(hù),決定了人工智能應(yīng)用最終可以走多遠(yuǎn)。
一、提升數(shù)據(jù)品質(zhì)
針對(duì)特定領(lǐng)域的數(shù)據(jù)集越龐大、越真實(shí)、越準(zhǔn)確、越可追溯、維度越豐富、越協(xié)同共享,越能得出最佳算法并帶來競(jìng)爭(zhēng)優(yōu)勢(shì)。
比如,在奈飛的網(wǎng)站上,圍繞用戶的維度,有性別、年齡、瀏覽過的電影、喜歡的明星、過往閱覽記錄等;圍繞某個(gè)電影的維度,有年代、導(dǎo)演、演員、風(fēng)格、題材、用戶評(píng)價(jià)等。
繞兩個(gè)主體的數(shù)據(jù)維度越豐富,越能在兩者間建立精準(zhǔn)匹配的關(guān)系,讓企業(yè)以更好的體驗(yàn)擴(kuò)大用戶群,不斷強(qiáng)化自己的優(yōu)勢(shì)。
我們看到,App的用戶規(guī)模越大,往往越能更精準(zhǔn)地滿足個(gè)性化體驗(yàn)。
比如,現(xiàn)在我們使用的一些音樂App已經(jīng)能夠精洞悉每個(gè)用戶喜歡的音樂風(fēng)格,并準(zhǔn)確推送喜歡的音樂。
對(duì)如何提升數(shù)據(jù)品質(zhì),企業(yè)可以在兩方面同時(shí)努力:
內(nèi)部,要有系統(tǒng)的規(guī)劃,實(shí)時(shí)采集和整理數(shù)據(jù),建立長(zhǎng)期數(shù)據(jù)積累;在外部,要有意識(shí)地構(gòu)建生態(tài)體系或者尋找合作伙伴,盡可能多地獲得相關(guān)數(shù)據(jù),且搭建統(tǒng)一架構(gòu),幫助數(shù)據(jù)互通。
二、數(shù)據(jù)的先發(fā)優(yōu)勢(shì)
數(shù)據(jù)競(jìng)爭(zhēng)一定存在先發(fā)優(yōu)勢(shì)。企業(yè)越是占據(jù)特定的場(chǎng)景,更早、更多地獲取數(shù)據(jù),人工智能的優(yōu)勢(shì)就越明顯。
現(xiàn)在,數(shù)據(jù)尚未全面商品化,企業(yè)與企業(yè)之間的數(shù)據(jù)交換尚未暢通。
由于市場(chǎng)的復(fù)雜和競(jìng)爭(zhēng)、數(shù)據(jù)安全和監(jiān)管等原因,企業(yè)或機(jī)構(gòu)不敢輕易開放數(shù)據(jù),企業(yè)或機(jī)構(gòu)需要通過自己的產(chǎn)品和生態(tài)體系來獲得更多數(shù)據(jù)。
從這個(gè)角度看,平臺(tái)型科技公司基于自己強(qiáng)大的數(shù)據(jù)基因,占有完全優(yōu)勢(shì)。
長(zhǎng)期來看,數(shù)據(jù)是可以創(chuàng)造收益的資產(chǎn),是公司的核心競(jìng)爭(zhēng)力,越早入局規(guī)劃,越能占據(jù)主動(dòng)。未來數(shù)據(jù)全面商品化之后,價(jià)值會(huì)非常明顯。
三、數(shù)據(jù)安全和隱私保護(hù)
對(duì)數(shù)據(jù)安全和個(gè)人隱私的保護(hù)程度,決定了人工智能可以走多遠(yuǎn)。
數(shù)據(jù)安全有兩層含義:
一是保證用戶數(shù)據(jù)不損壞、不丟失,這種情況發(fā)生的概率不大,數(shù)據(jù)存儲(chǔ)在云端也安全得多;二是保證數(shù)據(jù)不泄露或者濫用,這是主要的關(guān)注點(diǎn)。
無論在電子商務(wù)、航空旅行、金融借貸還是醫(yī)療行業(yè),全球已發(fā)生多起數(shù)據(jù)泄露的件,引發(fā)公眾的憤慨。
2017年,單是美國征信企業(yè)艾可菲(Equifax)一家公司的信息泄露就涉及多達(dá)1.43億人的姓名、住址、出生日期、社會(huì)保障號(hào)和駕照等敏感信息。
人們不可能縱容自己的數(shù)據(jù)隱私被侵犯。任由信息泄露和濫用,公司會(huì)陷入輿論的漩渦,商業(yè)發(fā)展的困境最終會(huì)阻礙人工智能的發(fā)展。
四、找到“強(qiáng)相關(guān)數(shù)據(jù)”
首先,無論大數(shù)據(jù)或小數(shù)據(jù),有價(jià)值的就是好數(shù)據(jù);其次,“大數(shù)據(jù)”這個(gè)詞,更多是一種思維方式和一個(gè)時(shí)代標(biāo)志。
實(shí)際的場(chǎng)景中使用的數(shù)據(jù)往往是有限的,真正有用的是“小數(shù)據(jù)”。
兵法上講,“傷其十指不如斷其一指”,大數(shù)據(jù)是一樣的道理,要用力在關(guān)鍵的“一指”上,不必追求“十指”面面俱到。
用戶源源不斷地產(chǎn)生數(shù)據(jù),目前對(duì)于企業(yè)來說,數(shù)據(jù)的收集和存儲(chǔ)能力并不構(gòu)成障礙。
癥結(jié)在于,90%的數(shù)據(jù)沒有被真正利用起來,成了“廢數(shù)據(jù)”。
主觀上,這與機(jī)構(gòu)的數(shù)據(jù)思維文化有關(guān),并不是所有公司都能像奈飛、亞馬遜那樣推崇用數(shù)據(jù)說話。
客觀上,則與數(shù)據(jù)的相關(guān)度有關(guān)。
比如一名用戶10年前的互聯(lián)網(wǎng)數(shù)據(jù),對(duì)于分析當(dāng)下或預(yù)測(cè)未來并沒有太多的作用,時(shí)間序列上的弱相關(guān)度,大大減弱了數(shù)據(jù)的效力。
相關(guān)數(shù)據(jù),特別要強(qiáng)調(diào)與特定場(chǎng)景的相關(guān)度?,F(xiàn)在,人工智能的應(yīng)用針對(duì)的是某個(gè)具體任務(wù)或具體目標(biāo),需要的數(shù)據(jù)類型不盡相同。
比如,傳媒、金融、醫(yī)療等各行業(yè)需要的細(xì)分?jǐn)?shù)據(jù)不同,具體到同一行業(yè)的子領(lǐng)域也不同。比如,在醫(yī)療領(lǐng)域,心血管疾病和癌癥診斷所要的細(xì)分?jǐn)?shù)據(jù)就不一樣。
大部分人工智能的應(yīng)用場(chǎng)景,都是針對(duì)一個(gè)具體的任務(wù)。
比如,個(gè)人信貸鑒別申請(qǐng)者的信用風(fēng)險(xiǎn),餐飲外賣確定最優(yōu)的派送路線,資訊信息流做精準(zhǔn)的個(gè)性化推薦……具體的場(chǎng)景中,起作用的主要是相關(guān)度高的數(shù)據(jù)。
五、重視小數(shù)據(jù)
相對(duì)大數(shù)據(jù)來說,能直接用起來的相關(guān)數(shù)據(jù),往往是一種特定的小數(shù)據(jù)。
這里的小數(shù)據(jù),指的是使用場(chǎng)景單一、對(duì)應(yīng)算法簡(jiǎn)單、及時(shí)性較高、數(shù)量規(guī)模較少的數(shù)據(jù)。
可以說,大數(shù)據(jù)是宏觀、全面的分析,小數(shù)據(jù)則是針對(duì)特定任務(wù)的具體分析?,F(xiàn)階段真正好用的其實(shí)是小數(shù)據(jù)。