CIO時代APP微講座:北京理工大學張華平談大數(shù)據(jù)語義分析與應用實踐

CIO時代網(wǎng)
佚名
                                &nbsp...
                                         \
  4月6日,北京理工大學大數(shù)據(jù)搜索與挖掘?qū)嶒炇抑魅?、副教授張華平在CIO時代APP微講座欄目作了題為《大數(shù)據(jù)語義分析與應用實踐》的主題分享,具體從以下四個方面展開:

                                                   \

 一、語義:比阿爾法狗更難的事

  大數(shù)據(jù)的語義分析對人類語言的理解遠遠難于AlphaGo,如就同樣的文字而言,誰都打不過,事實上是完全相反的。從中可以看出,語義理解的困難所在。比如“WEDOCHICKENRIGHT”,真正按照文字的字面理解,這里涉及到很多語言歧義。

                                        \

  上圖中構(gòu)建了自然語言、思維與客觀世界的三角關(guān)系,我們可以看到,自然語言是人類理解客觀世界的必要通道,幾乎也是一個唯一通道。

 二、文本大數(shù)據(jù)挖掘關(guān)鍵技術(shù)

                                        \


  從上圖中可以看到,大數(shù)據(jù)更大意義上是非結(jié)構(gòu)化內(nèi)容理解。具體而言,結(jié)構(gòu)化的大數(shù)據(jù)分析是利用傳統(tǒng)的數(shù)據(jù)庫,包括SPSS、IBM的DB2等這些工具可以很好地解決。但非結(jié)構(gòu)化的內(nèi)容理解還遠遠無法做到。

  我們實驗室的主要研究內(nèi)容包括:NLPIR大數(shù)據(jù)語義挖掘、JZSearch精準搜索引擎、知識本體構(gòu)建與知識管理。

  實驗室歷時十五年開發(fā)了一個NLPIR的大數(shù)據(jù)語義分析平臺。其核心功能包括以下幾個方面:

  搜索類:全文精準檢索;

  語言類:新詞發(fā)現(xiàn),分詞標注,統(tǒng)計分析與術(shù)語翻譯;關(guān)鍵詞提取;

  文檔類:文本聚類及熱點分析;分類過濾;自動摘要;文檔去重;情感分析。

  除此之外,我們還有一個在線演示的平臺,以下對平臺演示的幾個關(guān)鍵功能進行介紹。

                                         \

  上圖展示了一個技術(shù),背后都是基于在線演示平臺的做的,稱之為新詞發(fā)現(xiàn)的技術(shù),可以看到對一批語料自動計算數(shù)據(jù)中出現(xiàn)的新的詞匯,如認沽權(quán)證、金融衍生產(chǎn)品等等。其中有幾個參數(shù):詞語、詞性(一般是名詞)、權(quán)重(通過信息熵來計算該詞對一批語料的重要性)、詞頻,這里的詞頻排第一的并不是最高的,因此不適用所謂的高頻分析。另外,通過這種方法可以大量識別網(wǎng)絡中出現(xiàn)的新的語言及專業(yè)詞匯,這種方法分別在電力、醫(yī)院做過實驗,可以非常精準地識別各種專業(yè)的說法,如藥物名稱、醫(yī)學典籍等等。這項技術(shù)其實有非常廣的用途。

                                         \

  這里展示的技術(shù)是漢語分詞技術(shù),漢語分詞是語義理解中最基礎(chǔ)性的工作,到目前為止,這項工作已有十七年的歷史,這里可以看到的例子,如識別一個人的名字和單位,還可以看到分詞系統(tǒng)自動識別人的名字,包括英文原型等。這項工作已經(jīng)在全球四十萬機構(gòu)使用,如人們用的華為手機,其中涉及到的語義分析便是使用這項技術(shù),比如短信自動分析時間地點,以及餐飲酒店等。

                                         \

  這里展示的是信息過濾技術(shù),可以看到,這項科技可以在文章中發(fā)現(xiàn)色情及偏色情的內(nèi)容。

                                         \

  這里展示的是文本分類有基于機器學習分類的一項技術(shù)。可以看到,我們可將類別編成目錄文件夾,里面可以放一百個甚至更多的序列類本,圖中展示的是機器自動學習類別特征的過程。

                                         \

  這里展示的是經(jīng)過機器學習后大數(shù)據(jù)的方法,用深度學習的方法對常規(guī)文本進行自動分類,其中交通類的分類還是比較準確的。

                                        \

  這里是敏感內(nèi)容自動實時智能掃描的技術(shù),其中變形的識別都是音變,并沒有直接提關(guān)鍵詞,只利用發(fā)音掃描到敏感的內(nèi)容,這里是語音的智能識別理解技術(shù)。其實只要配一個詞便可識別各種干擾因素,這樣有利于精確打擊犯罪,如自動發(fā)現(xiàn)賭博,尋找需要的信息,挖掘敏感信息,用戶可以通過這種方法得到想要的內(nèi)容。這項技術(shù)的一個特點是智能、速度快,配100萬關(guān)鍵詞可以做到每秒掃描20兆的文本。

  NLPIR大數(shù)據(jù)語義分析技術(shù)的在線演示幾乎支持所有的開發(fā)語言,也支持各種各樣的平臺。

 三、大數(shù)據(jù)精準語義搜索關(guān)鍵技術(shù)

                                        \


  該搜索引擎可以采用自然語言的聊天方式,根據(jù)語義的知識圖譜將某個人的信息展現(xiàn)出來,如上圖所示,最左邊會將某個人相關(guān)的十年來所有信息做聚合運算。

                                         \

  這是一個時光機技術(shù),我們可以實時計算出每一年的活動、主題,剛才的聚合及每一年的主題,很多詞匯都是詞典中的內(nèi)容。值得注意的是,大數(shù)據(jù)挖掘技術(shù)可自動發(fā)現(xiàn)某個人的數(shù)據(jù)關(guān)聯(lián)性。具體原因可以在數(shù)據(jù)中得到答案。

 四、大數(shù)據(jù)語義應用實踐

  主要介紹以下四個案例:

 1.某大廈電力數(shù)據(jù)挖掘

  得到的數(shù)據(jù)情況為:238個房間每一天的用電數(shù)據(jù),總共是三百多天,期間工作日是256天,計算其單日用電量。基于這個數(shù)據(jù)傳統(tǒng)的數(shù)據(jù)聚合、數(shù)據(jù)基本分類、數(shù)據(jù)統(tǒng)計曲線等簡單工作便略去了。

  這里涉及到的一項工作便是計算空置率,空置率的計算對經(jīng)濟預測,尤其是微觀經(jīng)濟的洞察和宏觀經(jīng)濟的研判具有很強的現(xiàn)實意義。可以看到,這里空置房間的標準是經(jīng)過大量數(shù)據(jù)計算出來的。其實在二三線城市不錯的寫字樓,其空置率也達到了32%。除此之外,還可以精確預測每個房間的總體用電情況,由此來推導房間中辦公的人數(shù)。

  2.95598客服挖掘

                                        \


  上圖為一年來電網(wǎng)95598投訴分析,其中可以看到全國的分布、南北方的對比及時段的對比,進而挖掘有價值的信息。

 3.國家電網(wǎng)頭條

                                        \


  為國家電網(wǎng)打造了一個全媒體個性化智能推薦平臺,其中包括全媒體(多位一體、富媒體,如圖像、文字、音頻、視頻、直播等等)、云應用(構(gòu)建了一個開源平臺,所有用戶、編輯、審核、管理員及技術(shù)間的銜接均采用SaaS服務)、值得一說的是,個性化有所嘗試和探索(因時因地因人而變),具體而言,指的是不同的人在不同的地方看到的內(nèi)容是不同的,這里應用了個性化建模、個性化推薦與群體推薦的方法。

 4.公安某局的案件

                                         \


  這里展示的一年來盜竊案的總體刻畫,其中包括很大的數(shù)據(jù)。具體以串并案的處理為例,如盜竊三輪車的案件,根據(jù)案件描述自動從過去的幾百萬案件中推薦出前十個案件。其中進行了脫敏處理,但這種處理并不影響數(shù)據(jù)挖掘。這項工作對于安全的公安部門很有價值。

  介紹的一項工作便是詐騙案的語義聚合,詐騙案很多,眾所熟知的便是電信詐騙、網(wǎng)絡詐騙等,但隨著打擊的增加已呈現(xiàn)下降的態(tài)勢。真正有危害的是還不為公眾所認知的詐騙案件,值得注意的是利用目的進行詐騙的手法。這種技術(shù)適合于對海量數(shù)據(jù)進行聚合,輔助我們進行綜合的研判。

                                         \

  對同一類案件的人物、地點做聚合,構(gòu)建一個如上圖所示的犯罪地圖。犯罪地圖分為兩種,一種是指犯罪發(fā)生地點的地圖,一種是犯罪嫌疑人籍貫地圖,幫助我們發(fā)現(xiàn)重大線索。
THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論