文/李佳師
一直以來,大數(shù)據(jù)、人工智能的變現(xiàn),備受關(guān)注。幾天前,商湯科技在港交所提交上市申請,招股書顯示凈負(fù)債229.6億元,近三年半研發(fā)開支近70億,商湯科技虧損上市,讓大數(shù)據(jù)與AI的落地和變現(xiàn)的話題再度成為熱點(diǎn)。究竟數(shù)據(jù)如何變成知識(shí)變成應(yīng)用,最后生產(chǎn)價(jià)值,AI到底如何落地?在日前舉行的數(shù)據(jù)智能技術(shù)實(shí)踐論壇上,相關(guān)企業(yè)代表與專家給出了他們的判斷與建議。
核心出發(fā)點(diǎn)是要解決用戶痛點(diǎn)
或許在一些人看來,從數(shù)據(jù)變知識(shí)最后變成應(yīng)用,只要有某種神奇的算法就可以“一招鮮”把AI落地,但并非如此,要解決行業(yè)的痛點(diǎn)問題,從感知到認(rèn)知到?jīng)Q策的進(jìn)階里,需要多維度的探索,目前各個(gè)維度公司都摸索出有很多有價(jià)值的門道。
數(shù)據(jù)治理是數(shù)據(jù)利用的前提和保證,“很多用戶,在數(shù)據(jù)治理過程中遇到很多各種各樣頭疼的問題,比如很多數(shù)據(jù)過去的數(shù)據(jù)收集是按照歸口門類進(jìn)行收集的,怎么進(jìn)行融合就是問題之一。”今天數(shù)據(jù)治理中的技術(shù)挑戰(zhàn)除了數(shù)據(jù)孤島、數(shù)據(jù)質(zhì)量等問題,還存在多模態(tài)下如何解決數(shù)據(jù)不可用、不能用及不好用等挑戰(zhàn)。百分點(diǎn)科技數(shù)據(jù)開發(fā)部負(fù)責(zé)人馬偉凱認(rèn)為,通過引入機(jī)器學(xué)習(xí)算法、NLP等數(shù)據(jù)智能技術(shù),可以更好地開展數(shù)據(jù)治理工作,建立全域數(shù)據(jù)標(biāo)準(zhǔn)、提升數(shù)據(jù)質(zhì)量、盤活數(shù)據(jù)資產(chǎn),從而支撐數(shù)據(jù)融通,最終釋放數(shù)據(jù)價(jià)值指導(dǎo)業(yè)務(wù)創(chuàng)新。
從算法和模型的角度看,“過去大家的想法是,通過單點(diǎn)的算法創(chuàng)新就想大大提升應(yīng)用效果的方式已不復(fù)存。”百度視覺技術(shù)部主任架構(gòu)師劉經(jīng)拓認(rèn)為,要想破解行業(yè)痛點(diǎn),需要用全流程、全棧的方式,需要在技術(shù)和產(chǎn)業(yè)兩個(gè)維度上都進(jìn)行了融合創(chuàng)新,百度經(jīng)過這些年的實(shí)踐探索了計(jì)算機(jī)視覺領(lǐng)域從預(yù)訓(xùn)練、定制化到小型化,以及平臺(tái)化的一體化的研發(fā)方案。
具體來說,首先通過用超大規(guī)模非結(jié)構(gòu)性的數(shù)據(jù)做預(yù)訓(xùn)練,能夠在同樣少量數(shù)據(jù)的情況下取得更好的效果;定制化是指結(jié)合特定場景進(jìn)行自適應(yīng)遷移學(xué)習(xí),根據(jù)場景數(shù)據(jù)進(jìn)行有監(jiān)督定制化調(diào)優(yōu);小型化主要是基于模型剪枝、蒸餾、量化等技術(shù),對模型進(jìn)行裁剪。“大規(guī)模有監(jiān)督數(shù)據(jù)的技術(shù)紅利逐漸減弱,AI新基建需要更低的研發(fā)與部署成本,通過預(yù)訓(xùn)練與自訓(xùn)練平臺(tái),最終還要沉淀成標(biāo)準(zhǔn)化、低成本復(fù)制的模型,并與產(chǎn)業(yè)進(jìn)行更深度的融合,挖掘出更多降低人工成本的新應(yīng)用點(diǎn)。”劉經(jīng)拓說。
從知識(shí)圖譜的角度來看,復(fù)旦大學(xué)教授肖仰華認(rèn)為,知識(shí)圖譜是一種大規(guī)模語義網(wǎng)絡(luò),是大數(shù)據(jù)時(shí)代知識(shí)最重要的一種表示方式,目前知識(shí)圖譜的運(yùn)用存在幾大難點(diǎn),一是成本太高。有報(bào)道稱,手工構(gòu)建一條三元組可能需要2到6美金,如果使用上自動(dòng)化的辦法,也要花將近15美分左右。如果構(gòu)建一個(gè)成千上萬,或者千萬規(guī)模的知識(shí)圖譜,可以想像其成本之高。另一個(gè)難點(diǎn)是,知識(shí)圖譜的構(gòu)建是錦上添花,可有可無。
百分點(diǎn)科技首席算法科學(xué)家蘇海波認(rèn)為,知識(shí)的構(gòu)建要從實(shí)際業(yè)務(wù)應(yīng)用的角度出發(fā),不能為了構(gòu)建一個(gè)圖譜而構(gòu)建圖譜,一定要強(qiáng)調(diào)從業(yè)務(wù)上解決什么樣的問題,基于這樣的需求構(gòu)建圖譜。知識(shí)圖譜落地有三個(gè)前提條件:一是應(yīng)用場景要清晰,業(yè)務(wù)場景到底要解決什么樣的問題,越具體、越清晰越好;二是知識(shí)依賴的數(shù)據(jù)邊界清晰,解決應(yīng)用問題依賴的數(shù)據(jù)是不是能夠基于客戶內(nèi)部數(shù)據(jù)或者外部公開的數(shù)據(jù)獲得;三是構(gòu)建可控,構(gòu)建的工作量要可控要可量化,事實(shí)上,人構(gòu)建的代價(jià)要比機(jī)器的代價(jià)大,所以在構(gòu)建時(shí)要考慮整個(gè)靈活性。
未來數(shù)據(jù)與AI技術(shù)會(huì)怎么變
馬偉凱表示,未來數(shù)據(jù)治理領(lǐng)域會(huì)有四大應(yīng)用趨勢:一是智能化建模和數(shù)據(jù)加工優(yōu)化,需要不斷地提升建模的能力沉淀到知識(shí)庫;二是智能化完善數(shù)據(jù)安全管理,包括智能化控制數(shù)據(jù)權(quán)限分配、智能化數(shù)據(jù)審計(jì)并制定數(shù)據(jù)加密脫敏策略;三是智能化設(shè)計(jì)并維護(hù)數(shù)據(jù)生命周期管理,由于數(shù)據(jù)量大有時(shí)候不一定是好事,對于很多單位來說可能是負(fù)擔(dān),因此智能化識(shí)別數(shù)據(jù)、智能化制定數(shù)據(jù)保留策略非常重要;四是與Data Fabric更好的融合,增強(qiáng)數(shù)據(jù)目錄,實(shí)現(xiàn)動(dòng)態(tài)的獲取數(shù)據(jù),保證數(shù)據(jù)的安全。
肖仰華認(rèn)為,在知識(shí)圖譜領(lǐng)域,在獲取知識(shí)之后,在應(yīng)用、服務(wù)能力方面也存在很多挑戰(zhàn)。因此,未來破題的關(guān)鍵在于要突破以知識(shí)圖譜為代表的知識(shí)智能的邊界,向認(rèn)知智能這樣的智能新形態(tài)發(fā)展。“認(rèn)知智能作為數(shù)據(jù)智能、知識(shí)智能融合創(chuàng)新產(chǎn)物,將是知識(shí)圖譜等知識(shí)工程技術(shù)發(fā)展的必然歸宿。”肖仰華表示。
關(guān)于模型的未來,關(guān)于人工智能的未來,現(xiàn)在很多大公司都在研發(fā)大模型,是不是大模型就是走向通用人工智能的方向呢?百分點(diǎn)CTO劉譯璟表示,人工智能的未來發(fā)展,要么在理論上有新突破,要么在人腦研究上有新的突破,要么在量子計(jì)算等新計(jì)算模式上有新的突破,如果這些維度產(chǎn)生突破能夠給人工智能未來發(fā)展帶來新的變量。