NLP與知識圖譜的對接

36大數(shù)據(jù)
佚名
本文整理自中國中文信息學(xué)會常務(wù)理事、白碩博士在杭州金融知識圖譜論壇上的演講。

兩個問題

第一個問題是,為什么有人說“中文知識圖譜”,難道知識圖譜是有國籍的嗎?它是有母語的嗎?知識是無國界的,這個當(dāng)然是理論上的說法。具體到一個國度,一個語言文化的大環(huán)境,我們就會發(fā)現(xiàn),事實上知識是有母語的。理論依據(jù)就是所謂的 語言相對論 ??赡艽蠹易罱伎戳恕督蹬R》,《降臨》講的就是語言相對論。一種思維方式、一種文化是被它的語言,它所操的母語所塑造。這是一個很重要的論斷,也正因為這個,在英語世界里搞得非常好的一些技術(shù),到漢語的世界來,就有可能水土不服。這給我們提出的任務(wù),就不止是一個移植、漢化的問題。實際上與 NLP 的對接,就是知識處理。與 NLP 對接的這一塊,任務(wù)比我們想象中重。語言的差距越大,親疏關(guān)系離得越遠(yuǎn),這個任務(wù)就越重。因為英語和德語之間不會那么費(fèi)勁,法語跟意大利語之間也沒有那么費(fèi)勁,但是英語跟漢語之間,可能就是要費(fèi)勁的。這與語言相對論是同樣的道理。

第二個問題,知識圖譜與 NLP 對接是一個新問題嗎?這需要看我們從什么意義上講。

大數(shù)據(jù)

從學(xué)術(shù)意義上講,肯定不是一個新問題,這個問題我們早已有之。在知識圖譜不叫知識圖譜的年代,實際上自然語言處理的研究者們,就已經(jīng)在研究如何表示自然語言的語義。自然語言的語義和具體的知識,具體的常識,具體的一些事實陳述之間,到底是什么樣的關(guān)系,也有不少研究。這里面我們暫且還不說這些具體的研究。知識抽取有很多經(jīng)典性的工作,比如恐怖活動,恐怖事件這樣一個大的范疇,它里面一系列的環(huán)節(jié),再比如兇殺案、恐嚇信。還有事件范圍更大的,比如總統(tǒng)選舉,它的選舉前期怎么樣,中期怎么樣,后期怎么樣,就不是一個事件而是一個話題了。作為自然語言的語義和作為知識的表示之間,是有著天然的聯(lián)系的。但是還不完全是一回事。因為語言有語言的單位,它敘述的單位,有它切入的視角。敘述單位和知識要把握的,一個大的場景要把握的單位之間,可能會有一個粒度不一樣的銜接。比如我們可能一句一句地說發(fā)生了什么事情,什么人死了,在什么地點,那么語義理解也是一句一句把它轉(zhuǎn)義為語義的表示。但是這個語義的表示,還不直接就是知識圖譜,還不直接就是那樣一個大的場景的描述。所以還要通過不同的蛛絲馬跡,通過不同外圍的描述,再去激發(fā)核心的大的場景,然后再往里面添一些相應(yīng)的添項。以上是從學(xué)術(shù)觀點看。

從技術(shù)觀點看,它也是一個不新不舊的問題。不新不舊就是說它與過去是有很多銜接的。但是在新的形勢下,對技術(shù)也提出了一些新的要求。這些新的要求,也需要我們把它落地。具體到金融領(lǐng)域,我們也會看到確實是有一些新的要求,面對這樣一些要求,需要去把它們落地。

從產(chǎn)業(yè)來看則是一個新的問題。我們怎樣有效地把知識圖譜的資源和 NLP 的資源銜接起來。不久前,在一個微信群里面,有一位投資人說他想找這樣的資源,找這樣的人,找這樣的團(tuán)隊合作,把 NLP 直接與量化投資結(jié)合,一起合作開發(fā)搞成一個系統(tǒng)。在我看來,這不是一個系統(tǒng),這是好幾個系統(tǒng)了。系統(tǒng)之間是有銜接的,你不能說淘金的人,把賣水的生意都一塊做了,這是不行的。術(shù)業(yè)有專攻,有人擅長這個,你就讓擅長這個的人去做,有什么需求就給人家提,但你不要把大家都搞成一個系統(tǒng),那就沒法玩了。這個說明了領(lǐng)域的產(chǎn)業(yè)分工,NLP 做哪一段,知識圖譜做哪一段,知識圖譜的應(yīng)用做哪一段,這分別是幾個系統(tǒng),分別由不同的人來提供。這個事情可能還是沒有形成一個穩(wěn)定的業(yè)態(tài)導(dǎo)致的。因此需要我們大家一起來探索和努力。

      模態(tài)算子

我現(xiàn)在介入一些比較專業(yè)的話題,模態(tài)算子。這個模態(tài)算子是什么東西,大家一看就知道的。因為我們在一些報道中,在一些關(guān)于產(chǎn)業(yè)、經(jīng)濟(jì)發(fā)展的這種新聞報道中,以及各種各樣的公司公告和業(yè)績公告中,都會看到有這樣一些描述。這些描述是一個事實在前面加了一個東西,如果我們不認(rèn)真對待或者說把它們忽略了,是會有問題的。

這個東西叫模態(tài)算子,它有幾種表達(dá)形式。

大數(shù)據(jù)

第一種表示 未然 ,就是說還沒發(fā)生,但是預(yù)計或者計劃,或者將要發(fā)生。我們看這樣一些例子,第一個,我們預(yù)計增產(chǎn) 15%,第二個是 準(zhǔn)備 裁員 20%, 計劃 漲價 50%, 采購多少多少噸。如果我們把這些詞放過去了,那就可能錯把一個未然的東西,當(dāng)成一個事實來處理。如果放到知識庫,那么這個沒有發(fā)生的事情,跟已經(jīng)發(fā)生的事情攪在一起,你有一些推理能力的話,就會推出很多最后你自己都不相信的結(jié)果。所以怎么樣去處理未然?這里面我們提出的模態(tài)算子一類,在我們中文的這個語言學(xué)里面,算是計劃類。

大數(shù)據(jù)

第二類在陳述前面加了主觀的折扣或者表示分寸的東西。比如說我不認(rèn)為有必要怎樣,這樣一個前綴,或者說傾向于暫緩什么,或者說堅信一定不會怎么樣。可能會用一些,就是副詞或者說一些表示認(rèn)知的這樣一些詞,再進(jìn)行什么樣的組合。這樣一種組合,它會把一個裸的陳述加上一些分寸感,一種主觀的過濾。這樣一些東西,我們也要注意,不能忽略。如果把這些前綴都忽略掉,然后把后面的被前綴約束的東西,當(dāng)做一種事實陳述,然后再跟事實混在一起,無論是進(jìn)行推理也好,進(jìn)行問答也好,都可能會放大一些小概率的事情。

大數(shù)據(jù)

第三類是一些高階表述。我們在外交場合會見到一些高階表述的外交辭令。不幸的是,關(guān)于財經(jīng)類的新聞報道中,也看到了這樣的表述。比如說對房價過快上漲的預(yù)期減弱,這里面對價格做了上漲的修飾,然后又對預(yù)期價格上漲這件事做了減弱 。對于這種套了好幾層的套路,是一些對高階導(dǎo)數(shù)的定性描述。我們怎樣去把它落到所謂的知識庫里面,也是一個問題。比如對去產(chǎn)能措施的成功充滿信心,還沒成功呢只是充滿信心,還沒有去產(chǎn)能,只是要采取一些措施。

如果我們?nèi)ゲ杉@樣一些數(shù)據(jù),采集到的不全是客觀事實。因為除了陳述本身之外,還覆蓋了一些東西,到底是誰說的,說的是哪個世界的事,是現(xiàn)實世界的事還是我們未來世界的事,說的時候打了多少折扣,從里到外套了多少套路,這些都是我們需要關(guān)注的。如果不關(guān)注這些點,或者只去采認(rèn)識的東西,就是采出一些裸事實來。如果不看這些裸事實外面套的外套,可能會有偏頗。

大數(shù)據(jù)

另一方面,這些不全是客觀事實的表述,它也有自己的意義。尤其是在金融領(lǐng)域,資本市場是最典型的,不管有沒有風(fēng),起浪就夠了。因為它造成的一些效果,在人的心理有投射,而這些效果會引發(fā)后面的一些動蕩和行為。不管這個東西是真是假,它引發(fā)行為總是真的。如果焦點恰恰在引發(fā)行為的這個分析上,那么有這個風(fēng),它的作用就會存在,我們就要分析它的作用。那么具體怎么分析呢?我們剛才說的這三類,一類是未然的,那它到底能不能變成已然,這里面是有它的主觀性在內(nèi)的,是誰說的,來源是否可靠。其來源是否可靠,也對它從未然到已然的概率,會產(chǎn)生影響。所以這時候我們需要一些標(biāo)簽把看到的模態(tài)算子變成標(biāo)簽,比如說消息源的標(biāo)簽,就緒度的標(biāo)簽。第二類就是打了折扣的這些,我們就要根據(jù)這個折扣的分寸感,去給它標(biāo)注相應(yīng)的可信度的標(biāo)簽。第三類是定性的導(dǎo)數(shù),我們還要給它標(biāo)變化率的標(biāo)簽,比如表現(xiàn)率的定性曲直。通過這樣一些標(biāo)簽,我們就能夠區(qū)分帶了模態(tài)算子帽子的陳述跟裸的事實陳述。這些標(biāo)簽也可以在后期加以利用,我們把它叫做模態(tài)元數(shù)據(jù)。

      如何使用模態(tài)元數(shù)據(jù)?

可以想到的三種方法,一種是分庫存放,隔絕推理。我推我的,事實跟事實在一起推,不是事實也許可能成為事實的,或者說有一定概率成為事實的或者怎么樣的,那些放到另外的地方另外推,這兩個互相不相往來。這樣分庫存放可以減少一定的混亂,但隔絕推理就可能會使我們失去了一些挖到更多知識的機(jī)會。

第二種方式就是混合存放,放開推理,這種其實也不好。因為它們長的也不一樣,性質(zhì)也是有所區(qū)別的,如果全放在一起,放開推理的話,推出來的東西可能你就無法掌控。

我們推薦的是第三種,就是分庫存放。同時對推理有一定的控制,就不讓它放開了推。當(dāng)然說是這么說,具體實施還是要注意到很多事情,我們這里就是從學(xué)術(shù)角度強(qiáng)調(diào),有這樣一類陳述,這類陳述需要大家引起重視。那么一些路徑上的考慮先放在這兒,至于說怎么樣去實現(xiàn),我們可以底下再做一些探討。

大數(shù)據(jù)

它能怎么用呢?比如說這個公司在不同的時間,會承諾未來做一些事情,它到底做的怎么樣呢?這個可以給進(jìn)度,通過計劃最終給進(jìn)度劃線,什么時候哪些東西的未然成為已然了,我們可以看它實現(xiàn)的情況。還有就是觀點聚類,那也就是說根據(jù)大家對同一件事情打的不同的折扣,我們可以給這樣一個人群的觀點的分布畫像,讓他知道誰是站在左邊,誰是站在右邊,誰是站在中間。我們還可以對趨勢進(jìn)行一些定性導(dǎo)數(shù)的分析。

      深層語言分析結(jié)果的對接

下一個話題,深層語言分析的結(jié)果如何與知識圖譜進(jìn)行對接。

深層語言分析,傳統(tǒng)來說是把這個語言分成詞法、句法、語義三個層面,然后剩下的就是計入應(yīng)用場景,語義也屬于應(yīng)用場景的一部分。有一條線,線的左邊是語言,線的右邊是知識,實際上語義已經(jīng)延伸到知識領(lǐng)域一小塊了,但場景基本都屬于知識這個領(lǐng)域,而還有一大部分語義,一大半句法,詞法的全部都是屬于語言這個領(lǐng)域的。從什么地方出發(fā),來達(dá)到我們最終的目標(biāo),場景,會產(chǎn)生不同的技術(shù)路線。

大數(shù)據(jù)

最早是用詞袋來激活場景,在知識圖譜里面當(dāng)時叫框架。從這兒就隔得非常遠(yuǎn),我們可以利用的信息就非常少。當(dāng)然這個應(yīng)用,如果說有一些非常限定領(lǐng)域的應(yīng)用,出于效率的考慮,我們可以這樣用。那么基于模板往前了一步,它利用了一些淺層的句法,但是這個句法不夠深。不夠深的情況下,它再進(jìn)一步,就離場景近了一點,但是實際上它還是有一些信息沒有捕捉到,或者有一些結(jié)構(gòu)性的關(guān)鍵信息沒有捕捉到。因為沒有捕捉到,所以這里面還是有一些失誤,或者說不夠精準(zhǔn)的情況。利用句法分析去做,可以用所謂的 SVO, 就是主謂賓語言上的一個簡寫。去找這種主謂賓的搭配,然后利用主謂賓的組合這種深層的信息,跟相應(yīng)的一些場景里面的知識圖譜也好,什么樣的表示也好去對接。SVO 也有它的一個位置,在上圖我們畫星星的地方。它除了采用深層的句法之外,還采用了一定的語義特征,我們叫次范疇語義特征,這個深層句法加上次范疇語義特征能干的事,又比這個又多一點?,F(xiàn)在這種對接的效果,我們看它處的位置跟我們的場景距離就比較短了,它能夠利用的一些結(jié)構(gòu)性的信息就更多了。

說到這兒,我想說一個產(chǎn)品,小孩拿到了一個新機(jī)器人,很高興跟機(jī)器人對話玩。小孩說,你給我講個故事吧,然后機(jī)器人從故事庫里面挑一些故事就開始講了。小孩挺高興,但是過一會,他表現(xiàn)欲很強(qiáng),就跟機(jī)器人說,那我給你講個故事吧。機(jī)器人不懂,以為是讓他講故事,又開始講。是“我給你”還是“你給我”這個事情沒有搞明白。可以肯定,它是基于模板來做的,可你要考慮一下語序這個事情,至少你這個技能就不會是單打一的出來,一定是成對的或者怎么樣出來。正因為它不是成對出來的,所以我們可以很有信心的說,他們是基于模板的技術(shù)。基于模板里面就是說,我給你,你給我這個語序的信息,它是沒有捕捉到的。

在證券市場里,買賣,在銀行里面借貸,包括我們生活當(dāng)中的娶嫁,都存在一個相對關(guān)系,一個講一個聽。你賦予它講故事的能力,如果說同時能夠因為語義上的關(guān)聯(lián),賦予他一個傾聽的能力,不是更好嘛。所以這個是我們從這里面看到的,基于模板的對接。

      SVO 的局限

那么 SVO 會出現(xiàn)什么問題呢?它會出現(xiàn)這樣的問題:比如說一個公司增長率超過了 15%,然后另一個場景表示,它的增長率是超過了聯(lián)想(公司)。這都是主謂賓,賓語是放在不同地方的,說明我們知道誰跟誰有關(guān)系,但是關(guān)系的性質(zhì)其實是不一樣的,而這個是一個細(xì)粒度才能區(qū)分,只從 SVO 區(qū)別不了這件事情。為什么區(qū)別不了?因為超過了聯(lián)想的意思是以聯(lián)想為對標(biāo),在這個增長率上,是超過了聯(lián)想的那個增長率。

大數(shù)據(jù)

我們的做法就是深層 parsing,這里面我們看底下那行,這一行就是語義次范疇,那個 Cat 還是句法的范疇,這個 Subcat 就是語義次范疇。那么在這里面,我們就看到有一個做法,就是腦補(bǔ)。把聯(lián)想順著桿往下滑,從一個組織滑到一個組織的某項指標(biāo),然后在某項指標(biāo)的數(shù)值,用這種方法順著桿滑下來,然后從不可比就變成可比了。其實我們提出語法分析的過程,不僅能分析我們金融領(lǐng)域比較實用的句子,還能分析看起來老大難的句子。

比如說“這個問題老張的處理方法我有意見”,這句就不是常規(guī)的用法,而是賓語提前的用法。這種賓語提前的用法,就是說處理的,處理的是問題,辦法是處理的辦法,意見是對辦法的意見。像這樣一些名詞,按說都是不挖坑的,但是我們這里是要挖坑的,而且要有其他的名詞給它填坑,甚至是動詞給它填坑,那么這樣復(fù)雜的過程,我們也可以做,比如說用線圖的方式去表達(dá)這個分析的結(jié)果,或者用平面圖的方式去表達(dá)這個分析的結(jié)果,這都是可以做的。

大數(shù)據(jù)

最后我們簡單說一下自然語言當(dāng)中的風(fēng)格選擇問題。大家看這個就知道了,實際上我們很多的地方,每一個零件都是可替換的,而替換的不同選擇反映了風(fēng)格。風(fēng)格反映了聽說對方的關(guān)系,反映了說話人的性格特征和情緒狀態(tài)。

知識圖譜跟自然語言的對接,知識圖譜自身的推理需要有一個共同的中間站,我們比擬的說法,虛擬的說法,它是圖譜操作的系統(tǒng),這可能是需要的。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論