作為人工智能重點技術(shù)之一,自然語言處理在學(xué)術(shù)研究和應(yīng)用落地等各個方面都占據(jù)了舉足輕重的地位。
20世紀50年代,圖靈提出著名的“圖靈測試”,引出了自然語言處理的思想,而后,經(jīng)過半個多世紀的跌宕起伏,歷經(jīng)專家規(guī)則系統(tǒng)、統(tǒng)計機器學(xué)習、深度學(xué)習等一系列基礎(chǔ)技術(shù)體系的迭代,如今的自然語言處理技術(shù)在各個方向都有了顯著的進步和提升。
自然語言是指漢語、英語、法語等人們?nèi)粘J褂玫恼Z言,是人類社會發(fā)展演變而來的語言,而不是人造的語言,自然語言是人類學(xué)習生活的重要工具。
自然語言在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的80%以上。就計算機應(yīng)用而言,據(jù)統(tǒng)計,用于數(shù)學(xué)計算的僅占10%,用于過程控制的不到5%,其余85%左右則都是用于語言文字的信息處理。
自然語言處理(Natural Language Processing,NLP)是將人類交流溝通所用的語言經(jīng)過處理轉(zhuǎn)化為機器所能理解的機器語言,是一種研究語言能力的模型和算法框架,是語言學(xué)和計算機科學(xué)的交叉學(xué)科,是實現(xiàn)人機間的信息交流,是人工智能、計算機科學(xué)和語言學(xué)所共同關(guān)注的重要方向。
自然語言的處理流程大致可分為五步:
第一步,獲取語料。
第二步,對語料進行預(yù)處理,其中包括語料清理、分詞、詞性標注和去停用詞等步驟。
第三步,特征化,也就是向量化,主要把分詞后的字和詞表示成計算機可計算的類型(向量),這樣有助于較好的表達不同詞之間的相似關(guān)系。
第四步,模型訓(xùn)練,包括傳統(tǒng)的有監(jiān)督、半監(jiān)督和無監(jiān)督學(xué)習模型等,可根據(jù)應(yīng)用需求不同進行選擇。
第五步,對建模后的效果進行評價,常用的評測指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等。準確率是衡量檢索系統(tǒng)的查準率;召回率是衡量檢索系統(tǒng)的查全率;而F值是綜合準確率和召回率用于反映整體的指標,當F值較高時則說明試驗方法有效。
比爾·蓋茨曾說:“語言理解是人工智能皇冠上的明珠”??梢哉f,誰掌握了更高級的自然語言處理技術(shù),誰在自然語言處理的技術(shù)研發(fā)中取得了實質(zhì)突破,誰就將在日益激烈的人工智能軍備競賽中占得先機。
作為一門包含著計算機科學(xué)、人工智能以及語言學(xué)的交叉學(xué)科,自然語言處理的發(fā)展也經(jīng)歷了曲折中發(fā)展的過程。
1950年圖靈提出的著名的“圖靈測試”,被認為是自然語言處理思想的開端。20世紀50年代到70年代自然語言處理主要采用基于規(guī)則的方法,即認為自然語言處理的過程和人類學(xué)習認知一門語言的過程是類似的,彼時,自然語言處理還停留在理性主義思潮階段,以基于規(guī)則的方法為代表。
然而,基于規(guī)則的方法具有不可避免的缺點,首先規(guī)則不可能覆蓋所有語句,其次這種方法對開發(fā)者的要求極高,開發(fā)者不僅要精通計算機還要精通語言學(xué),因此,這一階段雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。
70年代以后,隨著互聯(lián)網(wǎng)的高速發(fā)展,豐富的語料庫成為現(xiàn)實以及硬件不斷更新完善,自然語言處理思潮由理性主義向經(jīng)驗主義過渡,基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法。
賈里尼克和其領(lǐng)導(dǎo)的IBM華生實驗室是推動這一轉(zhuǎn)變的關(guān)鍵,他們采用基于統(tǒng)計的方法,將當時的語音識別率從70%提升到90%。在這一階段,自然語言處理基于數(shù)學(xué)模型和統(tǒng)計的方法取得了實質(zhì)性的突破,從實驗室走向?qū)嶋H應(yīng)用。
從20世紀90年代開始,自然語言處理進入了繁榮期。1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學(xué)者William John Hutchins教授在他的特約報告中指出,自1989年以來,機器翻譯的發(fā)展進入了一個新紀元。
這個新紀元的重要標志是在基于規(guī)則的技術(shù)中引入了語料庫方法,其中包括統(tǒng)計方法、基于實例的方法、通過語料加工手段使語料庫轉(zhuǎn)化為語言知識庫的方法等等。這種建立在大規(guī)模真實文本處理基礎(chǔ)上的機器翻譯,是機器翻譯研究史上的一場革命,它將會把自然語言處理推向一個嶄新的階段。隨著機器翻譯新紀元的開始,自然語言處理進入了它的繁榮期。
尤其是20世紀90年代的最后5年(1994一1999)以及21世紀初期,自然語言處理的研究發(fā)生了很大的變化,出現(xiàn)了空前繁榮的局面。這主要表現(xiàn)在三個方面。
首先,概率和數(shù)據(jù)驅(qū)動的方法幾乎成了自然語言處理的標準方法。句法剖析、詞類標注、參照消解和話語處理的算法全都開始引入概率,并且采用從語音識別和信息檢索中借過來的評測方法。
其次,由于計算機的速度和存儲量的增加,使得在語音和語言處理的一些子領(lǐng)域,特別是在語音識別、拼寫檢查、語法檢查這些子領(lǐng)域,有可能進行商品化的開發(fā)。語音和語言處理的算法開始被應(yīng)用于增強交替通信(augmentative and alternative communication,AAC)中。
最后,是網(wǎng)絡(luò)技術(shù)的發(fā)展對于自然語言處理產(chǎn)生了的巨大推動力。萬維網(wǎng)(World Wide Web,WWW)的發(fā)展使得網(wǎng)絡(luò)上的信息檢索和信息抽取的需要變得更加突出,數(shù)據(jù)挖掘的技術(shù)日漸成熟。而WWW正是由自然語言構(gòu)成的,因此,隨著WWW的發(fā)展,自然語言處理的研究變得越發(fā)重要。
如今,在圖像識別和語音識別領(lǐng)域的成果激勵下,人們也逐漸開始引入深度學(xué)習來做自然語言處理研究,2013年,word2vec將深度學(xué)習與自然語言處理的結(jié)合推向了高潮,并在機器翻譯、問答系統(tǒng)、閱讀理解等領(lǐng)域取得了一定成功。
作為多層的神經(jīng)網(wǎng)絡(luò),深度學(xué)習從輸入層開始經(jīng)過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓(xùn)練。把輸入到輸出對的數(shù)據(jù)準備好,設(shè)計并訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),即可執(zhí)行預(yù)想的任務(wù)。RNN已經(jīng)成為自然語言處理最常用的方法之一,GRU、LSTM等模型則相繼引發(fā)了一輪又一輪的自然語言識別熱潮。