自然語言研究一直以來都是計(jì)算機(jī)研究的一個(gè)重要方向。隨著大數(shù)據(jù)時(shí)代的到來,人們也越來越關(guān)注自然語言這方面的進(jìn)展。而文學(xué)是自然語言這個(gè)皇冠上的明珠。人們都拭目以待大數(shù)據(jù)摘下這顆明珠的那一天。
幾十年來,文學(xué)作品中的統(tǒng)計(jì)分析已經(jīng)從單純的破譯理論發(fā)展到更尖端的研究
1993年,Tom Stoppard的戲劇《世外桃源》(Arcadia)正式上演。在這部腦洞大開的戲劇中那些用數(shù)據(jù)統(tǒng)計(jì)進(jìn)行文學(xué)評(píng)論的橋段成為圈內(nèi)人的笑料。劇中一位傻乎乎的詩歌教師,Bernard Nightingale,嘲笑他的同事用計(jì)算機(jī)程序來斷定一個(gè)沒有署名的故事出自于勞倫斯(D.H. Lawrence)之手。并且還得意的指出“在同樣的統(tǒng)計(jì)基礎(chǔ)上,竟然有百分之九十的可能性,Lawrence還撰寫了《淘氣小威廉》(“Just William”.作者是里奇馬爾Richmal Crompton)這本書以及前一天的《百眼巨人報(bào)》(英國布萊頓市的一份地方報(bào)紙)。雖然這只是該劇中的幾個(gè)笑話,但現(xiàn)在突然變得令人“細(xì)思恐極”了。 隨著《新牛津莎士比亞》系列的出版,人們開始了一場關(guān)于伊麗莎白時(shí)期劇作家身份的討論。
《新牛津莎士比亞》全集的最新版登上了去年10月份的頭條新聞。因?yàn)闀兄赋錾勘葋喌?4部戲劇作品有17部是和別人共同完成的(相比之下,1986版中僅列出了8部)。 而其中一個(gè)新出現(xiàn)的人名,馬洛(Christopher Marlowe),更讓人們興奮不已。這個(gè)名字的出現(xiàn)似乎佐證了之前一些關(guān)于作者身份被駁回的陰謀論。 然而,更吸引人眼球的是得出這個(gè)論斷背后的技術(shù)。人們已不再是根據(jù)編輯觀察等傳統(tǒng)的方式,而是通過計(jì)算分析來做出這樣的結(jié)論。 那么今天的數(shù)據(jù)語言學(xué)家是如何在不受作者影響力的前提下,弄清楚作者與作品的關(guān)系的呢? 同時(shí)我們更需要思考為什么做到這點(diǎn)很重要?
計(jì)算機(jī)和人類都可以通過一些“附加詞”來識(shí)別是不是莎士比亞的作品,比如他會(huì)經(jīng)常在自己的作品中使用 “gentle”, “answer”, “beseech”, “tonight”。 顯然用這種方法來判斷是不是莎翁作品已經(jīng)變得不那么準(zhǔn)確了,因?yàn)槟菚r(shí)候的作家常常會(huì)模仿其他人的行文風(fēng)格。 早期的劇作家是非常緊密的一個(gè)團(tuán)體,而與此同時(shí)16世紀(jì)的觀眾似乎并不是很在意作品的獨(dú)創(chuàng)性?!短緝骸?Tamburlaine),馬洛的一部非常受歡迎的戲劇,當(dāng)時(shí)被許多人模仿衍生出各種續(xù)作。以至于當(dāng)時(shí)著名的劇作家本·瓊森(Ben Jonson)對(duì)該劇被無休止的模仿而發(fā)出了哀嘆。 莎士比亞也和其他人一樣沒能免俗。 《馬耳他島的猶太人》(“The Jew of Malta” ,1589)中, 馬洛筆下的巴拉巴斯將他的女兒阿比蓋爾隔離在一個(gè)陽臺(tái)上:
“But stay! What star shines yonder in the east?
The lodestar of my life, if Abigail!”
(“看! 哪顆星星在東方發(fā)光?就是我生命中北極星,阿比蓋爾!“)
如果這段臺(tái)詞聽起來很熟悉,那是因?yàn)槭旰笊勘葋喒P下的羅密歐有著類似的臺(tái)詞:
“But soft! What light through yonder window breaks?
It is the East, and Juliet is the sun!” (“輕聲!那邊窗子里亮起來的是什么光?這是東方,而朱麗葉就是太陽!“)
在這種相互影響的情況下,電腦如何能夠分辨出馬洛和莎士比亞本人的作品以及他們作品中相互借鑒的區(qū)別?根據(jù)《新牛津莎士比亞》的編輯,其中的關(guān)鍵在于“功能詞”, 就是 “to”或“a”這類能夠?yàn)榫渥犹峁┱Z法支撐的單詞。 他們的理論認(rèn)為作家們都會(huì)無意識(shí)地以自己獨(dú)特的方式使用這些詞。例如,莎士比亞經(jīng)常把“and”與 “with”連在一起用 – 克勞狄斯與喬特魯?shù)禄槎Y中的“With mirth in funeral and with dirge in marriage” (“葬禮中的挽歌和婚禮中有歡歌”),老哈姆雷特的鬼魂說到“緩慢而莊嚴(yán)得出現(xiàn)在他們面前”( “Appears before them, and with solemn march。Goes slow and stately”)。 因此即使作家們?cè)噲D模仿他人的寫作風(fēng)格,功能詞的使用仍然能夠揭示他們真實(shí)的身份。 通過分析作家如何使用那些功能詞,計(jì)算機(jī)可以初步地識(shí)別他們獨(dú)特的語言指紋。
在莎士比亞作品的研究中,能夠獲知作品作者,作品內(nèi)容以及寫作時(shí)間是非常關(guān)鍵的,通過這些信息能有助于說服那些唯莎士比亞論者,因?yàn)樵谒麄冄劾锷叹褪且粋€(gè)孤傲的天才。 之前之所以人們會(huì)認(rèn)為莎士比亞少有與人合作,主要原因還是那些與他合作的作家并不是非常出色。盡管計(jì)算機(jī)模型不是絕對(duì)準(zhǔn)確的,但是以證據(jù)而非作品質(zhì)量來判定作品的歸屬還是令人信服的。
其次,正確的作品歸屬讓我們更好的了解戲劇作品本身。 當(dāng)我們打開一部歷史戲劇作品的第一頁,就像開始了一部關(guān)于這段歷史的電影。 由于《亨利六世》第二章的大部分可能是馬洛撰寫的,這就打破了這個(gè)歷史劇作的統(tǒng)一性。 馬洛更多的表現(xiàn)出對(duì)普通百姓角色(比如低調(diào)的杰克·凱德)的興趣,而不是那些無所不能的君主;相反, 莎士比亞更喜歡“國王之死”類似的故事。 知道同一部作品出自他們兩人之手,了解到其中的爭議和共生,我們可以更好地理解戲劇本身。
據(jù)《新牛津莎士比亞》編輯之一加布里埃爾·埃根(Gabriel Egan)所說,歸因模型越來越準(zhǔn)確,主要的原因就是“計(jì)算機(jī)研究人員越來越多地將研究精力轉(zhuǎn)向自然語言,而自然語言研究是計(jì)算機(jī)發(fā)展方向中最難的問題之一 。“在《世外桃源》中,Bernard Nightingale曾堅(jiān)持認(rèn)為”你不能把拜倫的思想放進(jìn)筆記本電腦里“。但就現(xiàn)在的情況來看,他的觀點(diǎn)仍然可能是正確的。 在控制測試中,即使像《新牛津莎士比亞》所使用的高級(jí)模式,有時(shí)也會(huì)有明顯的誤判,把作品張冠李戴。統(tǒng)計(jì)分析仍將是重要的分析工具之一。因?yàn)樗兄鴮W(xué)術(shù)的客觀性,只是之前人們?cè)谏勘葋喲芯款I(lǐng)域很少用到。