梵蒂岡秘密檔案館可謂全球最偉大的歷史藏品之一,但同時(shí)也身兼最無(wú)價(jià)值藏品的“桂冠”。
這座恢宏的建筑坐落在梵蒂岡城墻之內(nèi),毗鄰使徒圖書(shū)館、位于西斯廷大教堂北側(cè),擁有著可追溯于1200年之前的總長(zhǎng)達(dá)53英里的書(shū)架。除了將Martin Luther逐出教會(huì)的《教皇詔書(shū)》之外,其中還包括蘇格蘭瑪麗女王被處決之前發(fā)給教皇西克斯五世的函件。在規(guī)模與范圍方面,其中的收藏幾乎著稱無(wú)與倫比。
然而,梵蒂岡秘密檔案館對(duì)現(xiàn)代學(xué)者卻沒(méi)多大現(xiàn)實(shí)意義。因?yàn)樵谶@長(zhǎng)達(dá)53英里的書(shū)架當(dāng)中,只有極少數(shù)書(shū)頁(yè)經(jīng)過(guò)掃描以提供在線版本,這當(dāng)中的一小部分轉(zhuǎn)錄為計(jì)算機(jī)文本以供內(nèi)容搜索。如果我們打算閱讀其它任何內(nèi)容,則必須申請(qǐng)?zhí)厥獾脑L問(wèn)權(quán)限,一路前往羅馬,并親自動(dòng)手翻開(kāi)這些古籍。
不過(guò)新的項(xiàng)目可能會(huì)改變這一切。此項(xiàng)目名為Codice Ratio,旨在利用人工智能與光學(xué)字符識(shí)別(簡(jiǎn)稱OCR)軟件的組合重現(xiàn)這些被忽視的文本,并將其重新呈現(xiàn)在世人面前。如果成功,這項(xiàng)技術(shù)還將被用于處理世界各地其它歷史檔案庫(kù)當(dāng)中數(shù)不勝數(shù)的其它記錄文件。
多年以來(lái),人們一直在使用OCR技術(shù)掃描書(shū)籍及其它印刷文檔,但其并不適合秘密檔案中的素材。傳統(tǒng)OCR技術(shù)通過(guò)查找字母間的空格將單詞分解成一系列字母圖像,而后將各個(gè)字母圖像與記憶中的字母庫(kù)進(jìn)行比較。在確定與圖像內(nèi)容最匹配的字母之后,軟件會(huì)將該字母轉(zhuǎn)譯為計(jì)算機(jī)代碼(ASCII碼),從而創(chuàng)建可搜索文本。
然而,這一過(guò)程只適用于經(jīng)過(guò)嚴(yán)格排版的文字。其在處理一切手寫(xiě)內(nèi)容時(shí)都表現(xiàn)得相當(dāng)糟糕,而梵蒂岡秘密檔案館中的絕大多數(shù)文件皆以手寫(xiě)卷宗形式存在。下圖所示即為其中一例——十二世紀(jì)早期使用卡羅琳小寫(xiě)字母的文本,看起來(lái)像是書(shū)法加藝術(shù)體的混合產(chǎn)物:
從上例中可以看到,其中最大的問(wèn)題是字母之間缺少間隔空間(即臟分割)。OCR無(wú)法知曉單詞從哪個(gè)字母開(kāi)始、又到哪個(gè)字母截止,因此其不能分辨具體的字母數(shù)量。這就造成了計(jì)算層面的僵局,亦被稱為塞爾悖論:OCR羅技需要在識(shí)別之前將單詞分割成獨(dú)立的字母,但在字母彼此相連的手寫(xiě)文本當(dāng)中,軟件需要首先識(shí)別字母才能完成分割——死循環(huán)。
一部分計(jì)算機(jī)科學(xué)家試圖開(kāi)發(fā)出能夠識(shí)別整體單詞——而非字母——的OCR軟件以解決這個(gè)難題。其在技術(shù)層面確實(shí)具有可行性,因?yàn)橛?jì)算機(jī)并不“關(guān)心”其分析的是單詞還是字母。但讓這類系統(tǒng)實(shí)現(xiàn)正常運(yùn)轉(zhuǎn)卻非常困難,因?yàn)槠湫枰嫶蟮挠洃泿?kù)。這些系統(tǒng)需要識(shí)別的不再是數(shù)十個(gè)字母,而是成千上萬(wàn)個(gè)常用單詞的圖像。這意味著需要大量具有中世紀(jì)拉丁文專業(yè)知識(shí)的學(xué)者通過(guò)舊文件整理出各個(gè)單詞的圖像,且每一單詞至少需要數(shù)張圖片方可解釋手寫(xiě)變形或者由照明條件改變引發(fā)的其它變化。很明顯,這是一項(xiàng)艱巨的任務(wù)。
在Codice Ratio項(xiàng)目中,一種新的手寫(xiě)OCR方法成功解決了上述問(wèn)題。該項(xiàng)目背后的四位主要科學(xué)家——羅馬第三大學(xué)的Paolo Merialdo、Donatella Firmani、Elena Nieddu以及來(lái)自梵蒂岡秘密檔案館的Marco Maiorino希望利用拼圖分割方法解決塞爾悖論。正如該團(tuán)隊(duì)在最近的一篇論文中所闡述,其處理流程不會(huì)將單詞拆分成字母,而是將其理解為一種單筆筆劃。此OCR會(huì)將每個(gè)單詞劃分為一系列垂直與水平的條帶,再尋找其中的局部最小值(即墨跡較小或像素較少的部分)以完成分割。在此之后,該軟件會(huì)進(jìn)一步進(jìn)行字母繪制,并最終生成以下一系列拼圖碎片:
這些拼圖碎片本身作用不大,但該軟件能夠?qū)⑵渫ㄟ^(guò)多種方式組合起來(lái)以生成可能的字母。具體來(lái)講,軟件只需要知曉哪些組塊代表真實(shí)的字母,而哪些只是連筆造成的假象即可。
為了教會(huì)軟件這項(xiàng)能力,研究人員們選擇了不同尋常的導(dǎo)師——高中生。該團(tuán)隊(duì)在意大利的24所學(xué)校當(dāng)中招募了一批高中生用于建立項(xiàng)目的記憶庫(kù)。學(xué)生們?cè)诘卿浵嚓P(guān)網(wǎng)站后,會(huì)看到如下圖所示的三分屏幕界面:
頂部的綠色欄內(nèi)包含漂亮、整潔的中世紀(jì)拉丁文字母——在圖中為字母g。中間的紅色欄代表看似g但并非g的易混淆示例,下方網(wǎng)格則為程序主體。每張圖片都由OCR軟件利用幾塊拼圖組成,并對(duì)其內(nèi)容作出判斷。學(xué)生們的工作是判斷OCR的結(jié)論,告訴其哪些猜測(cè)正確、哪些猜測(cè)錯(cuò)誤。學(xué)生們需要將每幅圖像與柏拉圖式的完美綠色字母進(jìn)行比較,并點(diǎn)擊復(fù)選框輸入自己的結(jié)果。
通過(guò)一次次點(diǎn)擊,學(xué)生們努力教授該軟件如何識(shí)別22個(gè)中世紀(jì)拉丁字母(a-i,l-u,以及s與d的某些替代形式)。
這套方案的起步階段需要專家參與,幫助選擇完美的綠色字母示例以及紅色的混淆示例。但在完成之后,他們就不再需要跟進(jìn)。事實(shí)上,學(xué)生們甚至不需要了解拉丁文——他們的工作只是匹配視覺(jué)模式。Codice Ratio項(xiàng)目的Merialdo表示,起初人們覺(jué)得讓高中生參與進(jìn)來(lái)是個(gè)愚蠢的主意。然而,現(xiàn)在機(jī)器已經(jīng)開(kāi)始學(xué)習(xí),而且多虧了他們的努力,犈證明了許多人做出的小小簡(jiǎn)單貢獻(xiàn)也能夠解決復(fù)雜的難題。
當(dāng)然,最終學(xué)生們也不再需要參與其中。當(dāng)訓(xùn)練進(jìn)行到一定階段之后,該軟件即可獨(dú)立拼圖,并自行判斷字母的具體位置。這,正是人工智能的價(jià)值所在。
在另一方面,這也證明單靠拼圖碎片還不足以組合出正確的字母。計(jì)算機(jī)仍然需要額外的幫助才能破解手寫(xiě)文本的秘密。想象一下,大家正在讀信,并在其中看到下面這句:
中間的單詞到底是“clear”還是“dear”?很難判斷,因?yàn)?ldquo;d”與“cl”的筆畫(huà)構(gòu)成實(shí)際上完全相同。OCR軟件也面臨著同樣的問(wèn)題,特別是在處理高度風(fēng)格化的文本時(shí)更是如此。以下圖為例:
在經(jīng)過(guò)不同的拼圖組合之后,OCR認(rèn)為可能的選項(xiàng)包括aimo、amio、aniio、aiino甚至是aiiiio。但這個(gè)詞實(shí)際上是anno,也就是拉丁語(yǔ)中的年。該軟件認(rèn)準(zhǔn)了a和o,但卻弄不清中間的四個(gè)豎到底該如何劃分。
為了解決這個(gè)問(wèn)題,Codice Ratio團(tuán)隊(duì)不得不為自己的軟件提供一些常識(shí)性的知識(shí)。他們建立起一套包含150萬(wàn)個(gè)經(jīng)過(guò)數(shù)字化的拉丁詞匯語(yǔ)料庫(kù),并對(duì)其中的雙字母與三字母組合進(jìn)行了檢查。通過(guò)這種方式,他們確定了哪些字母組合較為常見(jiàn),而哪些永遠(yuǎn)不會(huì)出現(xiàn)。通過(guò)將這些統(tǒng)計(jì)信息提供給OCR軟件,其能夠了解到不同字符串的具體出現(xiàn)概率,從而意識(shí)到nn比iiii的可能性高得多。
隨著這樣的改進(jìn),OCR終于能夠自行閱讀部分文本了。該團(tuán)隊(duì)決定為其提供一些來(lái)自梵蒂岡秘密歸案館的資料。這是一份超過(guò)18000頁(yè)的檔案集合,其中包括寫(xiě)給歐洲國(guó)王的信件、關(guān)于法律問(wèn)題的裁決以及其它信件。
最初的結(jié)果有好有壞。在迄今為止的全部轉(zhuǎn)錄文本中,有三分之一文檔中包含一處或多處拼寫(xiě)錯(cuò)誤——意味著OCR作出了錯(cuò)誤的判斷。然而,該軟件仍然帶來(lái)了高達(dá)96%的手寫(xiě)字母判斷準(zhǔn)確率。Merialdo表示,即使是“不完美的轉(zhuǎn)錄結(jié)果,亦可提供關(guān)于手稿內(nèi)容及背景的大量有價(jià)值信息。”