免费国产无遮挡又黄又爽 ,无码中文国产精品一区二区免费n

文檔智能：數(shù)字化轉(zhuǎn)型的技術(shù)基石

2020-08-19 16:17

今日頭條

微軟亞洲研究院

隨著數(shù)字化進(jìn)程的加快，文檔、圖像等載體的結(jié)構(gòu)化分析和內(nèi)容提取成為關(guān)乎企業(yè)數(shù)字化轉(zhuǎn)型成敗的關(guān)鍵一環(huán)，自動(dòng)、精準(zhǔn)、快速的信息處理對(duì)于生產(chǎn)力的提升至關(guān)重要。以商業(yè)文檔為例，不僅包含了公司內(nèi)外部事務(wù)的處理細(xì)節(jié)和知識(shí)沉淀，還有大量行業(yè)相關(guān)的實(shí)體和數(shù)字信息。人工提取這些信息既耗時(shí)費(fèi)力且精度低，而且可復(fù)用性也不高，因此，文檔智能技術(shù)（Document Intelligence）應(yīng)運(yùn)而生。

文檔智能技術(shù)深層次地結(jié)合了人工智能和人類智能，在金融、醫(yī)療、保險(xiǎn)、能源、物流等多個(gè)行業(yè)都有不同類型的應(yīng)用。例如：在金融領(lǐng)域，它可以實(shí)現(xiàn)財(cái)報(bào)分析和智能決策分析，為企業(yè)戰(zhàn)略的制定和投資決策提供科學(xué)、系統(tǒng)的數(shù)據(jù)支撐；在醫(yī)療領(lǐng)域，它可以實(shí)現(xiàn)病例的數(shù)字化，提高診斷的精準(zhǔn)度，并通過(guò)分析醫(yī)學(xué)文獻(xiàn)和病例的關(guān)聯(lián)性，定位潛在的治療方案。

什么是文檔智能？

文檔智能主要是指對(duì)于網(wǎng)頁(yè)、數(shù)字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息，通過(guò)人工智能技術(shù)進(jìn)行理解、分類、提取以及信息歸納的過(guò)程。

文檔智能技術(shù)

在過(guò)去的30年中，文檔智能的發(fā)展大致經(jīng)歷了三個(gè)階段。90年代初期，研究人員大多使用基于啟發(fā)式規(guī)則的方法進(jìn)行文檔的理解與分析，通過(guò)人工觀察文檔的布局信息，總結(jié)歸納一些處理規(guī)則，對(duì)固定布局信息的文檔進(jìn)行處理。然而，傳統(tǒng)基于規(guī)則的方法往往需要較大的人力成本，而且這些人工總結(jié)的規(guī)則可擴(kuò)展性不強(qiáng)，因此研究人員開(kāi)始采用基于統(tǒng)計(jì)學(xué)習(xí)的方法。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展和進(jìn)步，基于大規(guī)模標(biāo)注數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)模型成為了文檔智能的主流方法，它通過(guò)人工設(shè)計(jì)的特征模板，利用有監(jiān)督學(xué)習(xí)的方式在標(biāo)注數(shù)據(jù)中學(xué)習(xí)不同特征的權(quán)重，以此來(lái)理解、分析文檔的內(nèi)容和布局。

基于深度學(xué)習(xí)特別是預(yù)訓(xùn)練技術(shù)的文檔智能模型，近幾年受到越來(lái)越多的重視，大型科技公司紛紛推出相應(yīng)的文檔智能服務(wù)，包括微軟、亞馬遜、谷歌、IBM、阿里巴巴、百度等在內(nèi)的很多公司在這個(gè)領(lǐng)域持續(xù)發(fā)力，對(duì)于許多傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型提供了有力的支撐。

隨著各類實(shí)際業(yè)務(wù)和產(chǎn)品的出現(xiàn)，文檔智能領(lǐng)域的基準(zhǔn)數(shù)據(jù)集也百花齊放，這些基準(zhǔn)數(shù)據(jù)集通常包含了基于自然語(yǔ)言文本或圖像的標(biāo)注信息，涵蓋了文檔布局分析、表格識(shí)別、信息抽取等重要的文檔智能任務(wù)，它們的出現(xiàn)也推動(dòng)了文檔智能技術(shù)的進(jìn)一步發(fā)展。

文檔智能相關(guān)的基準(zhǔn)數(shù)據(jù)集

傳統(tǒng)的文檔理解和分析技術(shù)往往基于人工定制的規(guī)則或少量標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)，這些方法雖然能夠帶來(lái)一定程度的性能提升，但由于定制規(guī)則和可學(xué)習(xí)的樣本數(shù)量不足，其通用性往往不盡如人意，而且針對(duì)不同類別文檔的分析遷移成本較高。隨著深度學(xué)習(xí)預(yù)訓(xùn)練技術(shù)的發(fā)展，以及大量無(wú)標(biāo)注電子文檔的積累，文檔分析與識(shí)別技術(shù)進(jìn)入了一個(gè)全新的時(shí)代。

微軟亞洲研究院提出的 LayoutLM 便是一個(gè)全新的文檔理解模型，通過(guò)引入預(yù)訓(xùn)練技術(shù)，同時(shí)利用文本布局的局部不變性特征，可有效地將未標(biāo)注文檔的信息遷移到下游任務(wù)中。LayoutLM 的論文（論文鏈接：https://arxiv.org/abs/1912.13318）已被KDD 2020 接收，并將在下周舉行的 KDD 大會(huì)上進(jìn)行分享。同時(shí)，為了解決文檔理解領(lǐng)域現(xiàn)有的數(shù)據(jù)集標(biāo)注規(guī)模小、標(biāo)注粒度大、多模態(tài)信息缺失等缺陷，微軟亞洲研究院的研究員們還提出了大規(guī)模表格識(shí)別數(shù)據(jù)集 TableBank和大規(guī)模文檔布局標(biāo)注數(shù)據(jù)集 DocBank（論文鏈接：https://arxiv.org/abs/2006.01038），利用弱監(jiān)督的方法，構(gòu)建了高質(zhì)量的文檔布局細(xì)粒度標(biāo)注。

LayoutLM：在預(yù)訓(xùn)練階段實(shí)現(xiàn)文本和布局信息對(duì)齊

大量的研究成果表明，大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型通過(guò)自監(jiān)督任務(wù)，可在預(yù)訓(xùn)練階段有效捕捉文本中蘊(yùn)含的語(yǔ)義信息，經(jīng)過(guò)下游任務(wù)微調(diào)后能有效的提升模型效果。然而，現(xiàn)有的預(yù)訓(xùn)練語(yǔ)言模型主要針對(duì)文本單一模態(tài)進(jìn)行，忽視了文檔本身與文本天然對(duì)齊的視覺(jué)結(jié)構(gòu)信息。為了解決這一問(wèn)題，研究員們提出了一種通用文檔預(yù)訓(xùn)練模型LayoutLM[1][2]，選擇了文檔結(jié)構(gòu)信息（Document Layout Information）和視覺(jué)信息（Visual Information）進(jìn)行建模，讓模型在預(yù)訓(xùn)練階段進(jìn)行多模態(tài)對(duì)齊。

在實(shí)際使用的過(guò)程中，LayoutLM 僅需要極少的標(biāo)注數(shù)據(jù)即可達(dá)到行業(yè)領(lǐng)先的水平。研究員們?cè)谌齻€(gè)不同類型的下游任務(wù)中進(jìn)行了驗(yàn)證：表單理解（Form Understanding）、票據(jù)理解（Receipt Understanding），以及文檔圖像分類（Document Image Classification）。實(shí)驗(yàn)結(jié)果表明，在預(yù)訓(xùn)練中引入的結(jié)構(gòu)和視覺(jué)信息，能夠有效地遷移到下游任務(wù)中，最終在三個(gè)下游任務(wù)中都取得了顯著的準(zhǔn)確率提升。

文檔結(jié)構(gòu)和視覺(jué)信息不可忽視

很多情況下，文檔中文字的位置關(guān)系蘊(yùn)含著豐富的語(yǔ)義信息。以下圖的表單為例，表單通常是以鍵值對(duì)（key-value pair）的形式展示的（例如 “DATE: 11/28/84”）。一般情況下，鍵值對(duì)的排布是以左右或者上下的形式，并且有特殊的類型關(guān)系。類似地，在表格文檔中，表格中的文字通常是網(wǎng)格狀排列，并且表頭一般出現(xiàn)在第一列或第一行。通過(guò)預(yù)訓(xùn)練，這些與文本天然對(duì)齊的位置信息可以為下游的信息抽取任務(wù)提供更豐富的語(yǔ)義信息。

表單示例

對(duì)于富文本文檔，除了文字本身的位置關(guān)系之外，文字格式所呈現(xiàn)的視覺(jué)信息同樣可以幫助下游任務(wù)。對(duì)文本級(jí)（token-level）任務(wù)來(lái)說(shuō)，文字大小、是否傾斜、是否加粗，以及字體等富文本格式都能夠體現(xiàn)相應(yīng)的語(yǔ)義。例如，表單鍵值對(duì)的鍵位（key）通常會(huì)以加粗的形式給出；而在一般文檔中，文章的標(biāo)題通常會(huì)放大加粗呈現(xiàn)，特殊概念名詞會(huì)以斜體呈現(xiàn)，等等。對(duì)文檔級(jí)（document-level）任務(wù)來(lái)說(shuō)，整體的文檔圖像能提供全局的結(jié)構(gòu)信息。例如個(gè)人簡(jiǎn)歷的整體文檔結(jié)構(gòu)與科學(xué)文獻(xiàn)的文檔結(jié)構(gòu)是有明顯的視覺(jué)差異的。這些模態(tài)對(duì)齊的富文本格式所展現(xiàn)的視覺(jué)特征，可以通過(guò)視覺(jué)模型抽取，再結(jié)合到預(yù)訓(xùn)練階段，從而有效地幫助下游任務(wù)。

將視覺(jué)信息與文檔結(jié)構(gòu)融入到通用預(yù)訓(xùn)練方案

建模上述信息需要尋找這些信息的有效表示方式。然而現(xiàn)實(shí)中的文檔格式豐富多樣，除了格式明確的電子文檔外，還有大量掃描式報(bào)表和票據(jù)等圖片式文檔。對(duì)于計(jì)算機(jī)生成的電子文檔，可以使用對(duì)應(yīng)的工具獲取文本和對(duì)應(yīng)的位置以及格式信息；對(duì)于掃描圖片文檔，則可以使用 OCR 技術(shù)進(jìn)行處理，從而獲得相應(yīng)的信息。兩種不同的手段幾乎可以使用現(xiàn)存的所有文檔數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，保證了預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模。

基于文檔結(jié)構(gòu)和視覺(jué)信息的 LayoutLM 模型結(jié)構(gòu)

利用上述信息，微軟亞洲研究院的研究員們?cè)诂F(xiàn)有的預(yù)訓(xùn)練模型基礎(chǔ)上添加了二維位置嵌入（2-D Position Embedding）和圖嵌入（Image Embedding）兩種新的 Embedding 層，可以有效地結(jié)合文檔結(jié)構(gòu)和視覺(jué)信息：

1) 二維位置嵌入 2-D Position Embedding：根據(jù) OCR 獲得的文本邊界框 (Bounding Box)，能獲取文本在文檔中的具體位置。在將對(duì)應(yīng)坐標(biāo)轉(zhuǎn)化為虛擬坐標(biāo)之后，則可以計(jì)算該坐標(biāo)對(duì)應(yīng)在 x、y、w、h 四個(gè) Embedding 子層的表示，最終的 2-D Position Embedding 為四個(gè)子層的 Embedding 之和。

2) 圖嵌入 Image Embedding：將每個(gè)文本相應(yīng)的邊界框 (Bounding Box) 當(dāng)作 Faster R-CNN 中的候選框（Proposal），從而提取對(duì)應(yīng)的局部特征。其特別之處在于，由于 [CLS] 符號(hào)用于表示整個(gè)輸入文本的語(yǔ)義，所以同樣使用整張文檔圖像作為該位置的 Image Embedding，從而保持模態(tài)對(duì)齊。

在預(yù)訓(xùn)練階段，研究員們針對(duì) LayoutLM 的特點(diǎn)提出了兩個(gè)自監(jiān)督預(yù)訓(xùn)練任務(wù)：

1) 掩碼視覺(jué)語(yǔ)言模型（Masked Visual-Language Model，MVLM）：大量實(shí)驗(yàn)已經(jīng)證明 MLM 能夠在預(yù)訓(xùn)練階段有效地進(jìn)行自監(jiān)督學(xué)習(xí)。研究員們?cè)诖嘶A(chǔ)上進(jìn)行了修改：在遮蓋當(dāng)前詞之后，保留對(duì)應(yīng)的 2-D Position Embedding 暗示，讓模型預(yù)測(cè)對(duì)應(yīng)的詞。在這種方法下，模型根據(jù)已有的上下文和對(duì)應(yīng)的視覺(jué)暗示預(yù)測(cè)被掩碼的詞，從而讓模型更好地學(xué)習(xí)文本位置和文本語(yǔ)義的模態(tài)對(duì)齊關(guān)系。

2) 多標(biāo)簽文檔分類（Multi-label Document Classification，MDC）：MLM 能夠有效的表示詞級(jí)別的信息，但是對(duì)于文檔級(jí)的表示，還需要將文檔級(jí)的預(yù)訓(xùn)練任務(wù)引入更高層的語(yǔ)義信息。在預(yù)訓(xùn)練階段研究員們使用的 IIT-CDIP 數(shù)據(jù)集為每個(gè)文檔提供了多標(biāo)簽的文檔類型標(biāo)注，并引入 MDC 多標(biāo)簽文檔分類任務(wù)。該任務(wù)使得模型可以利用這些監(jiān)督信號(hào)，聚合相應(yīng)的文檔類別并捕捉文檔類型信息，從而獲得更有效的高層語(yǔ)義表示。

實(shí)驗(yàn)結(jié)果：LayoutLM 的表單、票據(jù)理解和文檔圖像分類水平顯著提升

預(yù)訓(xùn)練過(guò)程使用了 IIT-CDIP 數(shù)據(jù)集，這是一個(gè)大規(guī)模的掃描圖像公開(kāi)數(shù)據(jù)集，經(jīng)過(guò)處理后的文檔數(shù)量達(dá)到約11,000,000。研究員們隨機(jī)采樣了1,000,000個(gè)進(jìn)行測(cè)試實(shí)驗(yàn)，最終使用全量數(shù)據(jù)進(jìn)行完全預(yù)訓(xùn)練。通過(guò)千萬(wàn)文檔量級(jí)的預(yù)訓(xùn)練并在下游任務(wù)微調(diào)，LayoutLM 在測(cè)試的三個(gè)不同類型的下游任務(wù)中都取得了 SOTA 的成績(jī)，具體如下：

1) 表單理解（Form Understanding）：表單理解任務(wù)上，使用了 FUNSD 作為測(cè)試數(shù)據(jù)集，該數(shù)據(jù)集中的199個(gè)標(biāo)注文檔包含了31,485個(gè)詞和9,707個(gè)語(yǔ)義實(shí)體。在該數(shù)據(jù)集上，需要對(duì)數(shù)據(jù)集中的表單進(jìn)行鍵值對(duì)（key-value）抽取。通過(guò)引入位置信息的訓(xùn)練，LayoutLM 模型在該任務(wù)上取得了顯著的提升，將表單理解的 F1 值從70.72 提高至79.2。

2) 票據(jù)理解（Receipt Understanding）：票據(jù)理解任務(wù)中，選擇了 SROIE 測(cè)評(píng)比賽作為測(cè)試。SROIE 票據(jù)理解包含1000張已標(biāo)注的票據(jù)，每張票據(jù)都標(biāo)注了店鋪名、店鋪地址、總價(jià)、消費(fèi)時(shí)間四個(gè)語(yǔ)義實(shí)體。通過(guò)在該數(shù)據(jù)集上微調(diào)，LayoutLM 模型在 SROIE 測(cè)評(píng)中的 F1 值高出第一名（2019）1.2個(gè)百分點(diǎn)，達(dá)到95.24%。

3) 文檔圖像分類（Document Image Classification）：對(duì)于文檔圖像分類任務(wù)，則選擇了 RVL-CDIP 數(shù)據(jù)集進(jìn)行測(cè)試。RVL-CDIP 數(shù)據(jù)集包含有16類總記40萬(wàn)個(gè)文檔，每一類都包含25,000個(gè)文檔數(shù)據(jù)。LayoutLM 模型在該數(shù)據(jù)集上微調(diào)之后，將分類準(zhǔn)確率提高了1.35個(gè)百分點(diǎn)，達(dá)到了94.42%。

DocBank數(shù)據(jù)集：50萬(wàn)文檔頁(yè)面，以弱監(jiān)督方法獲取高質(zhì)量標(biāo)注

在許多文檔理解應(yīng)用中，文檔布局分析是一項(xiàng)重要任務(wù)，因?yàn)樗梢詫虢Y(jié)構(gòu)化信息轉(zhuǎn)換為結(jié)構(gòu)化表示形式，同時(shí)從文檔中提取關(guān)鍵信息。由于文檔的布局和格式不同，因此這一直是一個(gè)具有挑戰(zhàn)性的問(wèn)題。目前，最先進(jìn)的計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理模型通常采用“預(yù)訓(xùn)練-微調(diào)”范式來(lái)解決這個(gè)問(wèn)題，首先在預(yù)先訓(xùn)練的模型上初始化，然后對(duì)特定的下游任務(wù)進(jìn)行微調(diào)，從而獲得十分可觀的結(jié)果。

但是，模型的預(yù)訓(xùn)練過(guò)程不僅需要大規(guī)模的無(wú)標(biāo)記數(shù)據(jù)進(jìn)行自我監(jiān)督學(xué)習(xí)，還需要高質(zhì)量的標(biāo)記數(shù)據(jù)進(jìn)行特定任務(wù)的微調(diào)以實(shí)現(xiàn)良好的性能。對(duì)于文檔布局分析任務(wù)，目前已經(jīng)有一些基于圖像的文檔布局?jǐn)?shù)據(jù)集，但其中大多數(shù)是為計(jì)算機(jī)視覺(jué)方法而構(gòu)建的，很難應(yīng)用于自然語(yǔ)言處理方法。此外，基于圖像的標(biāo)注主要包括頁(yè)面圖像和大型語(yǔ)義結(jié)構(gòu)的邊界框，精準(zhǔn)度遠(yuǎn)不如細(xì)粒度的文本級(jí)標(biāo)注。然而，人工標(biāo)注細(xì)粒度的 Token 級(jí)別文本的人力成本和時(shí)間成本非常高昂。因此，利用弱監(jiān)督方法，以較少的人力物力來(lái)獲得帶標(biāo)簽的細(xì)粒度文檔標(biāo)注，同時(shí)使數(shù)據(jù)易于應(yīng)用在任何自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)方法上至關(guān)重要。

為此，微軟亞洲研究院的研究員們構(gòu)建了 DocBank 數(shù)據(jù)集[3][4]，這是一個(gè)文檔基準(zhǔn)數(shù)據(jù)集，其中包含了50萬(wàn)文檔頁(yè)面以及用于文檔布局分析的細(xì)粒度 Token 級(jí)標(biāo)注。與常規(guī)的人工標(biāo)注數(shù)據(jù)集不同，微軟亞洲研究院的方法以簡(jiǎn)單有效的方式利用弱監(jiān)督的方法獲得了高質(zhì)量標(biāo)注。DocBank 數(shù)據(jù)集是文檔布局標(biāo)注數(shù)據(jù)集 TableBank[5][6] 的擴(kuò)展，基于互聯(lián)網(wǎng)上大量的數(shù)字化文檔進(jìn)行開(kāi)發(fā)而來(lái)。例如當(dāng)下很多研究論文的 PDF 文件，都是由 LaTeX 工具編譯而成。LaTeX 系統(tǒng)的命令中包含了標(biāo)記作為構(gòu)造塊的顯式語(yǔ)義結(jié)構(gòu)信息，例如摘要、作者、標(biāo)題、公式、圖形、頁(yè)腳、列表、段落、參考、節(jié)標(biāo)題、表格和文章標(biāo)題。為了區(qū)分不同的語(yǔ)義結(jié)構(gòu)，研究員們修改了 LaTeX 源代碼，為不同語(yǔ)義結(jié)構(gòu)的文本指定不同的顏色，從而能清楚地劃分不同的文本區(qū)域，并標(biāo)識(shí)為對(duì)應(yīng)的語(yǔ)義結(jié)構(gòu)。

從自然語(yǔ)言處理的角度來(lái)看，DocBank 數(shù)據(jù)集的優(yōu)勢(shì)是可用于任何序列標(biāo)注模型，同時(shí)還可以輕松轉(zhuǎn)換為基于圖像的標(biāo)注，以支持計(jì)算機(jī)視覺(jué)中的物體檢測(cè)模型。通過(guò)這種方式，可以使用 DocBank 公平地比較來(lái)自不同模態(tài)的模型，并且進(jìn)一步研究多模態(tài)方法，提高文檔布局分析的準(zhǔn)確性。

為了驗(yàn)證 DocBank 的有效性，研究員們使用了 BERT、RoBERTa 和 LayoutLM 三個(gè)基線模型進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，對(duì)于文檔布局分析任務(wù)，LayoutLM 模型明顯優(yōu)于 DocBank 上的 BERT 和 RoBERTa 模型。微軟亞洲研究院希望 DocBank 可以驅(qū)動(dòng)更多文檔布局分析模型，同時(shí)促進(jìn)更多的自定義網(wǎng)絡(luò)結(jié)構(gòu)在這個(gè)領(lǐng)域取得實(shí)質(zhì)性進(jìn)展。

DocBank 數(shù)據(jù)集的數(shù)據(jù)樣例

四步構(gòu)建 DocBank 數(shù)據(jù)集

DocBank 的處理步驟

研究員們使用 Token 級(jí)標(biāo)注構(gòu)建 DocBank 數(shù)據(jù)集，以支持自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)模型的研究。DocBank 的構(gòu)建包括四個(gè)步驟：文檔獲取、語(yǔ)義結(jié)構(gòu)檢測(cè)、Token 級(jí)別文本標(biāo)注、后處理。DocBank 數(shù)據(jù)集總共包括50萬(wàn)個(gè)文檔頁(yè)面，其中訓(xùn)練集包括40萬(wàn)個(gè)文檔頁(yè)面，驗(yàn)證集和測(cè)試集分別包括5萬(wàn)個(gè)文檔頁(yè)面（點(diǎn)擊閱讀原文，訪問(wèn)DocBank 數(shù)據(jù)集網(wǎng)站了解更多具體信息）。

文檔獲取

研究員們?cè)?arXiv.com 上獲取了大量科研論文的 PDF 文件，以及對(duì)應(yīng)的 LaTeX 源文件，因?yàn)樾枰ㄟ^(guò)修改源代碼來(lái)檢測(cè)語(yǔ)義結(jié)構(gòu)。這些論文包含物理、數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及許多其他領(lǐng)域，非常有利于 DocBank 數(shù)據(jù)集的多樣性覆蓋，同時(shí)也可以使其訓(xùn)練出的模型更加魯棒。目前這項(xiàng)工作聚焦在英文文檔上，未來(lái)將會(huì)擴(kuò)展到其他語(yǔ)言。

語(yǔ)義結(jié)構(gòu)檢測(cè)

DocBank 是 TableBank 數(shù)據(jù)集的擴(kuò)展，其中除了表格之外還包括其他語(yǔ)義單元，用于文檔布局分析。在 DocBank 數(shù)據(jù)集中標(biāo)注了以下語(yǔ)義結(jié)構(gòu)：摘要、作者、標(biāo)題、公式、圖形、頁(yè)腳、列表、段落、參考文獻(xiàn)、節(jié)標(biāo)題、表格和文章標(biāo)題。

之前的 TableBank 研究使用了 “fcolorbox” 命令標(biāo)記表格。但是，對(duì)于 DocBank 數(shù)據(jù)集，目標(biāo)結(jié)構(gòu)主要由文本組成，因此無(wú)法很好地應(yīng)用 “fcolorbox” 命令。所以此次使用 “color” 命令來(lái)改變這些語(yǔ)義結(jié)構(gòu)的字體顏色，通過(guò)特定于結(jié)構(gòu)的顏色來(lái)區(qū)分它們。有兩種類型的命令可以表示語(yǔ)義結(jié)構(gòu)。

一類是 LaTeX 命令的簡(jiǎn)單單詞，后接反斜杠。例如，LaTeX 文檔中的節(jié)標(biāo)題通常采用以下格式：

另一類命令通常會(huì)啟動(dòng)一個(gè)環(huán)境。例如，LaTeX 文檔中的列表聲明如下所示：

\begin 命令啟動(dòng)一個(gè)環(huán)境，而 \end 命令結(jié)束該環(huán)境。實(shí)際命令名稱是 “begin” 命令和 “end” 命令的參數(shù)。將 “color” 命令插入到語(yǔ)義結(jié)構(gòu)的代碼中（如下所示），然后重新編譯 LaTeX 文檔。同時(shí)，為所有語(yǔ)義結(jié)構(gòu)定義特定的顏色，使它們更好地被區(qū)分。不同的結(jié)構(gòu)命令要求將 “color” 命令放置在不同的位置才能生效。最后，重新編譯 LaTeX 文檔來(lái)獲取更新的 PDF 頁(yè)面，其中每個(gè)目標(biāo)結(jié)構(gòu)的字體顏色已修改為特定于結(jié)構(gòu)的顏色。

Token 級(jí)別文本標(biāo)注

研究員們使用 PDFPlumber（基于 PDFMiner 構(gòu)建的 PDF 解析器）來(lái)提取文本行和非文本元素，以及它們的邊界框。通過(guò)劃分空格將文本行分詞，由于只能從解析器中獲得字符的邊界框，因此 Token 的邊界框定義是組成 Token 的單詞中最左上角坐標(biāo)和最右下角坐標(biāo)的集合。對(duì)于沒(méi)有任何文本的元素（例如 PDF 文件中的圖形和線條），則在 PDFMiner 中使用其類名和兩個(gè)“#”符號(hào)將其組成一個(gè)特殊標(biāo)記。表示圖形和線條的類名分別是 “LTFigure” 和 “LTLine”。

PDFPlumber 可以從 PDF 文件中以 RGB 值的形式，提取字符和非文本元素的顏色。通常，每個(gè) Token 由具有相同顏色的字符組成。如果不是的話，則使用第一個(gè)字符的顏色作為 Token 的顏色。根據(jù)上述的顏色到結(jié)構(gòu)的映射，可以確定 Token 級(jí)別的文本標(biāo)簽。此外，語(yǔ)義結(jié)構(gòu)可以同時(shí)包含文本和非文本元素。例如，表格由單詞和組成表格的線條構(gòu)成。在這項(xiàng)工作中，為了使模型在元素被切分之后能夠盡可能地獲取表格的布局，單詞和線條都被標(biāo)注為“表格”類。

后處理

在某些情況下，一些 Token 天然具有多種顏色，并且無(wú)法通過(guò) “ color” 命令進(jìn)行轉(zhuǎn)換，例如 PDF 文件中的超鏈接和引用，這些不變的顏色將導(dǎo)致標(biāo)記的標(biāo)注錯(cuò)誤。因此，為了更正這些 Token 的標(biāo)簽，還需要對(duì) DocBank 數(shù)據(jù)集進(jìn)行一些后處理步驟。

通常，相同語(yǔ)義結(jié)構(gòu)的 Token 將按閱讀順序組織在一起。因此，一般在相同的語(yǔ)義結(jié)構(gòu)中連續(xù)的標(biāo)記都具有相同的標(biāo)簽。當(dāng)語(yǔ)義結(jié)構(gòu)交替時(shí)，邊界處相鄰 Token 的標(biāo)簽將不一致。研究員們會(huì)根據(jù)文檔中的閱讀順序檢查所有標(biāo)簽。當(dāng)單個(gè) Token 的標(biāo)簽與其上文和下文的標(biāo)簽不同，但上文和下文的標(biāo)簽相同時(shí)，會(huì)將此 Token 的標(biāo)簽校正為與上下文標(biāo)記相同。通過(guò)手動(dòng)檢查，研究員們發(fā)現(xiàn)這些后處理步驟大大改善了DocBank 數(shù)據(jù)集的質(zhì)量。

實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)

DocBank 數(shù)據(jù)集具有12種語(yǔ)義單元，DocBank 中訓(xùn)練集、驗(yàn)證集和測(cè)試集的統(tǒng)計(jì)信息，顯示了每個(gè)語(yǔ)義單元的數(shù)量（定義為包含該語(yǔ)義單元的文檔頁(yè)面數(shù)量），以及占總文檔頁(yè)面數(shù)量的百分比。由于這些文檔頁(yè)面是隨機(jī)抽取并進(jìn)行劃分的，因此語(yǔ)義單元在不同集合中的分布幾乎是一致的。

DocBank 中訓(xùn)練、驗(yàn)證和測(cè)試集的語(yǔ)義結(jié)構(gòu)統(tǒng)計(jì)信息

年份統(tǒng)計(jì)信息中展示了不同年份文檔頁(yè)面的分布，可以看到論文的數(shù)量是逐年增加的。為了保持這種自然分布，研究員們隨機(jī)抽取了不同年份的文檔樣本以構(gòu)建 DocBank，而沒(méi)有平衡不同年份的數(shù)量。

DocBank 中訓(xùn)練、驗(yàn)證和測(cè)試集的年份統(tǒng)計(jì)信息

DocBank 與現(xiàn)有的文檔布局分析數(shù)據(jù)集（包括 Article Regions、GROTOAP2、PubLayNet 和 TableBank）的比較顯示，DocBank 在數(shù)據(jù)集的規(guī)模和語(yǔ)義結(jié)構(gòu)的種類上都超過(guò)了現(xiàn)有的數(shù)據(jù)集。而且，表格中所有數(shù)據(jù)集都是基于圖像的，只有DocBank 同時(shí)支持基于文本和基于圖像的模型。由于 DocBank 是基于公開(kāi)論文自動(dòng)構(gòu)建的，因此具有可擴(kuò)展性，可以隨著時(shí)間繼續(xù)擴(kuò)大數(shù)據(jù)規(guī)模。

DocBank 與現(xiàn)有的文檔布局分析數(shù)據(jù)集的比較

評(píng)價(jià)指標(biāo)

由于模型的輸入是序列化的二維文檔，所以典型的 BIO 標(biāo)簽評(píng)估并不適合這個(gè)任務(wù)。每個(gè)語(yǔ)義單元的 Token 可以在輸入序列中不連續(xù)地分布。針對(duì)基于文本的文檔布局分析方法，研究員們提出了一個(gè)新的指標(biāo)，其定義如下：

實(shí)驗(yàn)結(jié)果

LayoutLM、BERT、RoBERTa 模型在 DocBank 測(cè)試集的準(zhǔn)確性

在 DocBank 的測(cè)試集上評(píng)估了六個(gè)模型后，研究員們發(fā)現(xiàn) LayoutLM 在摘要、作者、表格標(biāo)題、方程式、圖形、頁(yè)腳、列表、段落、節(jié)標(biāo)題、表格、文章標(biāo)題標(biāo)簽上得分最高。在其他標(biāo)簽上 LayoutLM 與其他模型的差距也較小。這表明在文檔布局分析任務(wù)中，LayoutLM 結(jié)構(gòu)明顯優(yōu)于 BERT 和 RoBERTa 結(jié)構(gòu)。

測(cè)試集上預(yù)訓(xùn)練 BERT 模型和預(yù)訓(xùn)練 LayoutLM 模型的樣例輸出

研究員們又選取了測(cè)試集的一些樣本，將預(yù)訓(xùn)練 BERT 和預(yù)訓(xùn)練 LayoutLM 的輸出進(jìn)行了可視化?？梢杂^察到，序列標(biāo)記方法在 DocBank 數(shù)據(jù)集上表現(xiàn)良好，它可以識(shí)別不同的語(yǔ)義單元。對(duì)于預(yù)訓(xùn)練的 BERT 模型，某些 Token 沒(méi)有被正確標(biāo)記，這表明僅使用文本信息仍不足以完成文檔布局分析任務(wù)，還應(yīng)考慮視覺(jué)信息。

與預(yù)訓(xùn)練的 BERT 模型相比，預(yù)訓(xùn)練的 LayoutLM 模型集成了文本和布局信息，因此它在基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了更好的性能。這是因?yàn)槎S的位置嵌入可以在統(tǒng)一的框架中對(duì)語(yǔ)義結(jié)構(gòu)的空間距離和邊界進(jìn)行建模，從而提高了檢測(cè)精度。

結(jié)束語(yǔ)

信息處理是產(chǎn)業(yè)化的基礎(chǔ)和前提，如今對(duì)處理能力、處理速度和處理精度也都有著越來(lái)越高的要求。以商業(yè)領(lǐng)域?yàn)槔娮由虡I(yè)文檔就涵蓋了采購(gòu)單據(jù)、行業(yè)報(bào)告、商務(wù)郵件、銷售合同、雇傭協(xié)議、商業(yè)發(fā)票、個(gè)人簡(jiǎn)歷等大量繁雜的信息。機(jī)器人流程自動(dòng)化（Robotic Process Automation，RPA）行業(yè)正是在這一背景下應(yīng)運(yùn)而生，利用人工智能技術(shù)幫助大量人工從繁雜的電子文檔處理任務(wù)中解脫出來(lái)，并通過(guò)一系列配套的自動(dòng)化工具提升生產(chǎn)力，RPA的關(guān)鍵核心之一就是文檔智能技術(shù)。

傳統(tǒng)的人工智能技術(shù)往往需要利用大量的人工標(biāo)注數(shù)據(jù)來(lái)構(gòu)建自動(dòng)化機(jī)器學(xué)習(xí)模型，然而標(biāo)注數(shù)據(jù)的過(guò)程費(fèi)時(shí)費(fèi)力，通常成為產(chǎn)業(yè)化的瓶頸。LayoutLM 文檔理解預(yù)訓(xùn)練技術(shù)的優(yōu)勢(shì)在于，利用基于深度神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)技術(shù)，通過(guò)大規(guī)模無(wú)標(biāo)注數(shù)據(jù)學(xué)習(xí)基礎(chǔ)模型，之后再通過(guò)遷移學(xué)習(xí)技術(shù)僅需少量標(biāo)注數(shù)據(jù)即可達(dá)到人工處理文檔的水平。目前，LayoutLM 技術(shù)已經(jīng)成功應(yīng)用于微軟的核心產(chǎn)品和服務(wù)中。

為了推動(dòng)文檔智能技術(shù)的發(fā)展，LayoutLM 的相關(guān)模型代碼和論文也已經(jīng)開(kāi)源（https://aka.ms/layoutlm），并受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注和好評(píng)，據(jù)媒體報(bào)道在金融智能分析領(lǐng)域已經(jīng)有機(jī)構(gòu)開(kāi)始采用 LayoutLM 模型[7]進(jìn)行流程自動(dòng)化的集成和部署，同時(shí)也有相關(guān)機(jī)構(gòu)采用 LayoutLM 模型[8]進(jìn)行文檔視覺(jué)問(wèn)答（Document VQA）方面的研究工作。相信隨著傳統(tǒng)行業(yè)數(shù)字化轉(zhuǎn)型的逐步深入，文檔智能研究工作將被更多的個(gè)人和企業(yè)關(guān)注，進(jìn)一步推動(dòng)相關(guān)技術(shù)和行業(yè)的發(fā)展。

附錄

[1]LayoutLM 論文：https://arxiv.org/abs/1912.13318

[2]LayoutLM 代碼&模型：https://aka.ms/layoutlm

[3] DocBank 論文：https://arxiv.org/abs/2006.01038

[4] DocBank 數(shù)據(jù)集&模型：https://github.com/doc-analysis/DocBank

[5] TableBank 論文：https://arxiv.org/abs/1903.01949

[6] TableBank 數(shù)據(jù)集&模型：https://github.com/doc-analysis/TableBank

[7] “Injecting Artificial Intelligence into Financial Analysis”：https://medium.com/reimagine-banking/injecting-artificial-intelligence-into-financial-analysis-54718fbd5949

[8] “Document Visual Question Answering”：https://medium.com/@anishagunjal7/document-visual-question-answering-e6090f3bddee

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

云計(jì)算的關(guān)鍵技術(shù)

文檔智能：數(shù)字化轉(zhuǎn)型的技術(shù)基石

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

文檔智能：數(shù)字化轉(zhuǎn)型的技術(shù)基石

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

新基建“靴子”再落地 “東數(shù)西算”對(duì)制造業(yè)數(shù)字化影響幾何？

你連數(shù)字孿生都沒(méi)搞懂，還怎么數(shù)字化轉(zhuǎn)型？

“數(shù)據(jù)賦能共建共享”2022中國(guó)數(shù)字服務(wù)大會(huì)線上成功召開(kāi)

博銳尚格數(shù)智化運(yùn)營(yíng)管理平臺(tái)

本月熱門(mén)

AI 原生時(shí)代，字節(jié)想要復(fù)刻第三次增長(zhǎng)奇跡

2024 年預(yù)防網(wǎng)絡(luò)攻擊的 12 項(xiàng)網(wǎng)絡(luò)安全最佳實(shí)踐措施

從5G到6G：開(kāi)啟無(wú)線通信的未來(lái)

QuestMobile2024 中國(guó)移動(dòng)互聯(lián)網(wǎng)秋季大報(bào)告：一線、新一線、二線城市月活用戶重回凈增，數(shù)字增長(zhǎng)“內(nèi)生動(dòng)力”已然改變!

2024年上半年中國(guó)云終端市場(chǎng)跟蹤報(bào)告：出貨量達(dá)到166.3萬(wàn)臺(tái)，同比增長(zhǎng)22.4%

手機(jī)soc廠商自研架構(gòu)成趨勢(shì)

精選文章

“法人國(guó)際電子護(hù)照”——CFCA支持簽發(fā)LEI數(shù)字證書(shū)

新能源數(shù)字化運(yùn)營(yíng)平臺(tái)

關(guān)于“2023第七屆中國(guó)軟件和信息服務(wù)業(yè)年度風(fēng)云榜”網(wǎng)絡(luò)投票規(guī)則的說(shuō)明

以信源密信為安全底座護(hù)航“數(shù)據(jù)要素X金融市場(chǎng)”安全

民政部信息中心王興玲：數(shù)字賦能民政規(guī)劃引領(lǐng)未來(lái)

印象筆記成為國(guó)內(nèi)首家正式全面上線AIGC服務(wù)的工具產(chǎn)品提供商

熱點(diǎn)資訊

第六屆中國(guó)仿真技術(shù)應(yīng)用大會(huì)暨天津（寧河）低空產(chǎn)業(yè)發(fā)展峰會(huì)成功舉辦

QuestMobile2024 中國(guó)移動(dòng)互聯(lián)網(wǎng)秋季大報(bào)告：一線、新一線、二線城市月活用戶重回凈增，數(shù)字增長(zhǎng)“內(nèi)生動(dòng)力”已然改變!

繼“512軸”的新突破：華龍訊達(dá)在2024中國(guó)自動(dòng)化大會(huì)上分享具身智能生產(chǎn)線實(shí)踐

DevSecOps建設(shè)標(biāo)桿丨民生證券攜手懸鏡安全，共建敏捷安全開(kāi)發(fā)體系

ESIS 2024第三屆中國(guó)電子半導(dǎo)體數(shù)智峰會(huì)正式啟動(dòng)，邀您共創(chuàng)電子半導(dǎo)體行業(yè)美好未來(lái)!

云計(jì)算的關(guān)鍵技術(shù)

楊學(xué)山：工業(yè)技術(shù)與ICT技術(shù)共同推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展

文檔智能：數(shù)字化轉(zhuǎn)型的技術(shù)基石

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

新基建“靴子”再落地 “東數(shù)西算”對(duì)制造業(yè)數(shù)字化影響幾何？

你連數(shù)字孿生都沒(méi)搞懂，還怎么數(shù)字化轉(zhuǎn)型？

“數(shù)據(jù)賦能 共建共享”2022中國(guó)數(shù)字服務(wù)大會(huì)線上成功召開(kāi)

博銳尚格數(shù)智化運(yùn)營(yíng)管理平臺(tái)

本月熱門(mén)

精選文章

熱點(diǎn)資訊

云計(jì)算的關(guān)鍵技術(shù)

楊學(xué)山：工業(yè)技術(shù)與ICT技術(shù)共同推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展

新基建“靴子”再落地 “東數(shù)西算”對(duì)制造業(yè)數(shù)字化影響幾何？

你連數(shù)字孿生都沒(méi)搞懂，還怎么數(shù)字化轉(zhuǎn)型？

“數(shù)據(jù)賦能共建共享”2022中國(guó)數(shù)字服務(wù)大會(huì)線上成功召開(kāi)