從詞向量到概念發(fā)現(xiàn),知識(shí)圖譜讓機(jī)器更加理解人類語(yǔ)言

信息化觀察網(wǎng)
信息化觀察網(wǎng)
魯迅先生說(shuō),“人類的悲歡并不相通,我只覺(jué)得他們吵鬧”。而人工智能與人類智能之間的巨大鴻溝則主要源于語(yǔ)言的差異。機(jī)器語(yǔ)言是0,1二進(jìn)制;相反,人類語(yǔ)言則姿態(tài)萬(wàn)千、豐富多彩。如何才能讓機(jī)器更好地理解人類語(yǔ)言,從而為我們所用呢?

魯迅先生說(shuō),“人類的悲歡并不相通,我只覺(jué)得他們吵鬧”。而人工智能與人類智能之間的巨大鴻溝則主要源于語(yǔ)言的差異。機(jī)器語(yǔ)言是0,1二進(jìn)制;相反,人類語(yǔ)言則姿態(tài)萬(wàn)千、豐富多彩。如何才能讓機(jī)器更好地理解人類語(yǔ)言,從而為我們所用呢?

人類語(yǔ)言中存在大量的多義詞、同義詞等,同一個(gè)詞在不同語(yǔ)境下有不同的概念,又或者明明是同一個(gè)概念卻可以有多個(gè)詞進(jìn)行表示。比如“我一邊吃蘋果,一邊用蘋果打電話。”這句話中“蘋果”一詞出現(xiàn)了兩次,人們基于自己的常識(shí)可以迅速判斷出兩個(gè)“蘋果”所代表的不同意思。機(jī)器能否跟人一樣聰明呢?通過(guò)極天信息的“文本概念識(shí)別”工具進(jìn)行識(shí)別(如下圖),通過(guò)概念路徑可以發(fā)現(xiàn),計(jì)算機(jī)也能夠正確識(shí)別出前一個(gè)“蘋果”指水果,后一個(gè)“蘋果”則代表公司品牌。

“蘋果”一詞是否存在更多新含義?要知道,在實(shí)際應(yīng)用中,我們往往要面對(duì)完全不熟悉的領(lǐng)域,怎么樣快速通過(guò)領(lǐng)域知識(shí)訓(xùn)練找到所有核心概念是重中之重。利用極天信息Word2concept(簡(jiǎn)稱W2C)概念發(fā)現(xiàn)工具進(jìn)行識(shí)別,結(jié)果得出“蘋果”一共有三個(gè)概念結(jié)果,除了水果、公司品牌之外,還有蔬菜的概念。此外還可以發(fā)現(xiàn)當(dāng)前訓(xùn)練的數(shù)據(jù)集中,“蘋果”的三種概念,公司品牌所指出現(xiàn)的概率是最高的,且與“諾基亞”“三星”有較高的相關(guān)度。

那么,面對(duì)語(yǔ)義理解精準(zhǔn)度越來(lái)越高的要求,而當(dāng)前業(yè)界通用的詞向量卻無(wú)法解決一詞多義的情況下,極天信息是如何做到讓機(jī)器也具備“常識(shí)庫(kù)”從而能夠準(zhǔn)確識(shí)別不同的概念呢?

事實(shí)上,自2007年以來(lái),極天信息便堅(jiān)持潛心研究語(yǔ)義網(wǎng)(Ontology)與知識(shí)圖譜(Knowledge)的構(gòu)建和應(yīng)用。Ontology是共享概念模型的明確的形式化規(guī)范說(shuō)明(1998, Studer),其定義了概念及概念和概念之間的關(guān)系,使得人與人之間、人與計(jì)算機(jī)之間能基于共享的概念進(jìn)行語(yǔ)言交流。歷經(jīng)多年研發(fā),極天信息成功推出通用知識(shí)圖譜SemNet,并形成了“軟件+方法+模型”的三位一體知識(shí)圖譜服務(wù)體系,讓企業(yè)可以體驗(yàn)到“開(kāi)箱即用”的知識(shí)圖譜服務(wù),進(jìn)一步降低了知識(shí)圖譜構(gòu)建的門檻,開(kāi)展了豐富的智能化應(yīng)用。知識(shí)工程創(chuàng)始人Edward Feigenbaum曾說(shuō):“Knowledge is the power in AI system”。正是得益于極天信息在知識(shí)圖譜上的多年積累,機(jī)器才能如上述所示表現(xiàn)如此出色,能夠保證智能化應(yīng)用的高精準(zhǔn)度,提高語(yǔ)義理解的質(zhì)量。

而知識(shí)圖譜構(gòu)建的基礎(chǔ)工具之一就是W2C。利用W2C概念發(fā)現(xiàn)工具,可以快速發(fā)現(xiàn)新概念,以及相似概念之間的相關(guān)度,從而發(fā)現(xiàn)概念與概念之間的關(guān)系,最終輔助構(gòu)建領(lǐng)域知識(shí)圖譜。比如“奔馳”一詞,通過(guò)W2C進(jìn)行概念識(shí)別,可以發(fā)現(xiàn)作為公司品牌出現(xiàn)的概率達(dá)80%,作為動(dòng)詞出現(xiàn)的概率則僅為20%;在公司品牌這一概念中,其與“寶馬”的相關(guān)度又是最高的,有助于梳理出各個(gè)概念之間的關(guān)系。這對(duì)于新領(lǐng)域的自然語(yǔ)言處理任務(wù)來(lái)說(shuō),將會(huì)帶來(lái)十分可觀的效果。

總的來(lái)說(shuō),W2C概念發(fā)現(xiàn)工具尤其適合處理復(fù)雜語(yǔ)義環(huán)境下的自然語(yǔ)言處理任務(wù),使用也更加方便與高效?,F(xiàn)在,極天信息將這一工具免費(fèi)開(kāi)放使用,希望能夠助推各個(gè)行業(yè)的人工智能應(yīng)用更加廣泛、更加深入。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論