基于NLP技術(shù)在運(yùn)維自動(dòng)化領(lǐng)域構(gòu)建智能問答模型的探索與實(shí)踐

李心玥/徐佳琦/周思靜/陳婧/邱麗媛
近年來,隨著數(shù)字化轉(zhuǎn)型戰(zhàn)略的逐步深入,農(nóng)業(yè)銀行對(duì)安全生產(chǎn)運(yùn)維的智能化、數(shù)字化水平也提出了更高要求,并按照一體化運(yùn)維“統(tǒng)一規(guī)劃、場(chǎng)景驅(qū)動(dòng)、敏捷迭代”的實(shí)施原則,持續(xù)推動(dòng)應(yīng)用運(yùn)維向數(shù)據(jù)驅(qū)動(dòng)、面向場(chǎng)景的智能化運(yùn)營(yíng)轉(zhuǎn)型。

本文主要闡述了農(nóng)業(yè)銀行針對(duì)運(yùn)維自動(dòng)化領(lǐng)域內(nèi)的運(yùn)營(yíng)質(zhì)量提升場(chǎng)景開展的基于NLP技術(shù)的工程實(shí)踐,一是結(jié)合該領(lǐng)域現(xiàn)有經(jīng)驗(yàn)與知識(shí)構(gòu)建FAQ知識(shí)庫(kù)并實(shí)現(xiàn)檢索型自動(dòng)問答模型,通過問答系統(tǒng)評(píng)價(jià)指標(biāo)驗(yàn)證該模型的可用性及可擴(kuò)展性;二是基于NLP技術(shù)探索構(gòu)建“運(yùn)維+運(yùn)營(yíng)”的智能知識(shí)庫(kù)閉環(huán),通過深入挖掘當(dāng)前應(yīng)用運(yùn)維自動(dòng)化運(yùn)營(yíng)的推廣痛點(diǎn),進(jìn)一步了解用戶的普遍運(yùn)維需求和產(chǎn)品改進(jìn)方向。

文丨中國(guó)農(nóng)業(yè)銀行研發(fā)中心上海研發(fā)部

文丨李心玥徐佳琦周思靜陳婧邱麗媛

近年來,隨著數(shù)字化轉(zhuǎn)型戰(zhàn)略的逐步深入,農(nóng)業(yè)銀行對(duì)安全生產(chǎn)運(yùn)維的智能化、數(shù)字化水平也提出了更高要求,并按照一體化運(yùn)維“統(tǒng)一規(guī)劃、場(chǎng)景驅(qū)動(dòng)、敏捷迭代”的實(shí)施原則,持續(xù)推動(dòng)應(yīng)用運(yùn)維向數(shù)據(jù)驅(qū)動(dòng)、面向場(chǎng)景的智能化運(yùn)營(yíng)轉(zhuǎn)型。尤其是2020年以來,智能運(yùn)維平臺(tái)不僅較好地完成了全年的運(yùn)營(yíng)推廣目標(biāo),同時(shí)在面向研發(fā)中心的全面推廣過程中,也收到了來自研發(fā)中心官方在線問答平臺(tái)用戶提問工單、智能運(yùn)維平臺(tái)用戶反饋流程、變更非自動(dòng)化原因反饋等多種渠道的用戶意見或建議。為實(shí)現(xiàn)平臺(tái)持續(xù)優(yōu)化的發(fā)展目標(biāo),農(nóng)業(yè)銀行研發(fā)中心引入NLP文本訓(xùn)練相關(guān)機(jī)器學(xué)習(xí)技術(shù),構(gòu)建適用于運(yùn)維自動(dòng)化領(lǐng)域的智能問答模型,面向運(yùn)營(yíng)質(zhì)量提升場(chǎng)景展開了應(yīng)用實(shí)踐,并希望能為同業(yè)開展運(yùn)維自動(dòng)化領(lǐng)域的技術(shù)運(yùn)營(yíng)推廣工作提供可借鑒的解決思路和開發(fā)參考。

一、基于NLP的智能運(yùn)維問答模型

建設(shè)實(shí)踐

當(dāng)前,農(nóng)業(yè)銀行的智能運(yùn)維平臺(tái)在應(yīng)用監(jiān)控、應(yīng)用操作、應(yīng)用交付和日志查詢等領(lǐng)域均提供了豐富的自動(dòng)化運(yùn)維場(chǎng)景,可高效支持各類應(yīng)用系統(tǒng)的接入和使用。然而,面對(duì)行內(nèi)超過500個(gè)應(yīng)用系統(tǒng)、800個(gè)應(yīng)用模塊的運(yùn)維非功能性接入和使用需求,各模塊技術(shù)運(yùn)營(yíng)人員平均一個(gè)工作日需受理約10個(gè)用戶反饋工單以及來自至少5位項(xiàng)目組同事的運(yùn)維自動(dòng)化郵件和咨詢電話,占用了運(yùn)營(yíng)人員較多的日常工作時(shí)間。

為解決以上問題,農(nóng)業(yè)銀行研發(fā)中心在運(yùn)維自動(dòng)化領(lǐng)域構(gòu)建了一個(gè)基于問答對(duì)的FAQ自動(dòng)問答系統(tǒng),即當(dāng)用戶將問題提交至自動(dòng)問答系統(tǒng),問答系統(tǒng)會(huì)根據(jù)問題從FAQ中尋找最相似的“問題-答案”對(duì),并將找到的答案返回給用戶,其中的經(jīng)典應(yīng)用場(chǎng)景包括智能語音交互、在線客服、知識(shí)獲取、情感類聊天等。實(shí)踐中,項(xiàng)目組主要采用了檢索型問答系統(tǒng)來構(gòu)建運(yùn)維自動(dòng)化領(lǐng)域的智能問答模型。

1.構(gòu)建問答語料庫(kù)

在模型構(gòu)建階段,項(xiàng)目組首先構(gòu)建了應(yīng)用監(jiān)控領(lǐng)域與平臺(tái)基礎(chǔ)功能相關(guān)的常用問答庫(kù),共包含113個(gè)常見問題,其中應(yīng)用監(jiān)控領(lǐng)域(性能監(jiān)控、心跳監(jiān)控、全鏈路健康、告警配置等)92個(gè)、基礎(chǔ)功能相關(guān)(登錄問題、應(yīng)用配置等)21個(gè)。

同時(shí),在知識(shí)庫(kù)中為每個(gè)問題配備了2種答案:答案1為直接答案,即根據(jù)問題得出的最直接的文本回答;答案2為知識(shí)庫(kù)中的相關(guān)頁面,即當(dāng)問題所對(duì)應(yīng)的答案涉及多方面知識(shí)或需要圖文解說時(shí),答案2將直接返回知識(shí)庫(kù)中的某個(gè)具體頁面地址,并在該地址頁面中提供詳盡的解釋與介紹。

在此基礎(chǔ)上,為進(jìn)一步評(píng)價(jià)自動(dòng)問答系統(tǒng)模型的實(shí)驗(yàn)效果,項(xiàng)目組選取2020年共約500個(gè)應(yīng)用監(jiān)控、基礎(chǔ)服務(wù)領(lǐng)域的用戶反饋工單純文本信息作為訓(xùn)練數(shù)據(jù)集,根據(jù)原始的用戶提問和工單受理人的最終回答,在FAQ知識(shí)庫(kù)中標(biāo)注了最相似的問題編號(hào)。

2.文本預(yù)處理

實(shí)踐中,由于訓(xùn)練集中存在較多換行符、空格、標(biāo)點(diǎn)符號(hào)、數(shù)字等無關(guān)信息,因此需要對(duì)這類信息進(jìn)行過濾。在此過程中,項(xiàng)目組在對(duì)文本進(jìn)行初步過濾后,根據(jù)Jieba庫(kù)的精確切割模式對(duì)用戶反饋工單提問進(jìn)行了中文分詞,并過濾掉了停用詞和長(zhǎng)度小于2的詞,以減少無效信息干擾因素。此外,還針對(duì)行內(nèi)某些敏感信息(如服務(wù)目錄編號(hào)、身份證號(hào)碼等)進(jìn)行了區(qū)分識(shí)別,同時(shí)對(duì)文本處理過程中的無效實(shí)體信息進(jìn)行過濾。

3.搭建問答系統(tǒng)模型

根據(jù)領(lǐng)域?qū)I(yè)性和實(shí)際應(yīng)用場(chǎng)景,由于不存在聊天對(duì)話需求,也不需要系統(tǒng)為用戶執(zhí)行某項(xiàng)特定任務(wù),因此項(xiàng)目組嘗試搭建了一個(gè)檢索式問答系統(tǒng),即用戶提出一個(gè)特定問題Query,將由問答系統(tǒng)模型去FAQ知識(shí)庫(kù)中找到最相似的問題對(duì)應(yīng)答案返回給用戶(如圖1所示)。

2345截圖20210719174729.png

圖1問答系統(tǒng)模型構(gòu)建過程

上述過程中,關(guān)鍵點(diǎn)在于如何根據(jù)用戶提出的問題匹配到FAQ知識(shí)庫(kù)中最相似的問題,從而得出用戶想要的答案。對(duì)此,借鑒NLP領(lǐng)域內(nèi)可近似為文本相似度計(jì)算的各種技術(shù),項(xiàng)目組主要采用了兩種句向量編碼模型和兩種文本相似度方法來計(jì)算用戶提問與FAQ中問題的相似度。

(1)句向量模型

詞袋模型(bag-of-words)是一種傳統(tǒng)的句向量編碼方式,即不考慮文本中詞與詞之間的上下文關(guān)系,僅從詞的權(quán)重(詞在文本中出現(xiàn)的頻率)考慮將所有詞語裝入一個(gè)袋子中,且每個(gè)詞相對(duì)獨(dú)立。

BERT模型是近幾年較為流行的編碼方式,具體實(shí)現(xiàn)方式通常是兩個(gè)連續(xù)的句子開始和結(jié)束打上符號(hào),兩句之中打上分隔符,反例的生成則采用類似于Word2vec的負(fù)采樣。對(duì)于中文來說,相比于傳統(tǒng)的分詞預(yù)處理技術(shù),BERT采用的是“分字”方法,即將每一個(gè)漢字都切開處理(如圖2所示)。

2345截圖20210719174729.png

圖2 BERT模型編碼方式

(2)文本相似度計(jì)算方法

針對(duì)以上兩種句向量編碼模型,項(xiàng)目組采用了2種不同的文本相似度計(jì)算方法來評(píng)估文本的相似性。第一種是TF-IDF方法,針對(duì)詞袋模型分詞后的結(jié)果,依據(jù)“在一段文本內(nèi)出現(xiàn)頻率高的詞或短語,如在其他文章中很少出現(xiàn)則認(rèn)為具有較好的類別區(qū)分能力”的核心概念,對(duì)句子計(jì)算其TF-IDF值,得到與問題集規(guī)模同等的相似度矩陣,這種方法的本質(zhì)是文本分類。

第二種方法為余弦相似度計(jì)算,是一種典型的文本相似度計(jì)算方法。余弦相似度主要指通過計(jì)算兩個(gè)詞向量的夾角余弦值來評(píng)估他們的相似度。首先,需要將兩個(gè)待比較的文本信息轉(zhuǎn)換為稀疏向量集,再基于一個(gè)向量空間中兩個(gè)向量夾角的余弦值,來衡量?jī)蓚€(gè)個(gè)體之間差異的大小。通常,會(huì)將1設(shè)為相同,0設(shè)為不同,則所有文本信息的相似度范圍都會(huì)在0~1之間。

結(jié)合上述方法,在完成文本相似度匹配計(jì)算后將得到一個(gè)Query對(duì)應(yīng)FAQ所有問題的相似度列表,考慮目前的FAQ問題數(shù)量較少,因此項(xiàng)目組采用了傳統(tǒng)的堆排序算法,即返回前k個(gè)最相似的問題索引編號(hào),其中k值大小可自行定義。以余弦相似度的文本匹配算法為例,通過遍歷訓(xùn)練集中所有問題,逐一與FAQ知識(shí)庫(kù)中的問題文本進(jìn)行比較,每個(gè)問題取TOP前k個(gè)最相似問題返回給用戶。

二、智能運(yùn)維問答系統(tǒng)模型

調(diào)優(yōu)路徑

在模型調(diào)優(yōu)階段,鑒于數(shù)據(jù)量的性能消耗及容量消耗較小,因此模型調(diào)優(yōu)的方向主要集中在文本信息優(yōu)化方面,即通過觀察文本信息,過濾提問句子中與問題無關(guān)的冗余信息,并選擇最合適的分詞模式對(duì)句子進(jìn)行精準(zhǔn)切割。

1.文本信息優(yōu)化

在用戶提問中,通常會(huì)帶有一些與問題無關(guān)的信息,如停用詞、用戶名、英文賬號(hào)、純數(shù)字、英文報(bào)錯(cuò)信息、系統(tǒng)編號(hào)等,此類信息往往與用戶實(shí)際想問的問題無關(guān)。對(duì)此,在文本信息的分詞處理階段,可以通過過濾這些無關(guān)信息使用戶提問更有針對(duì)性,如借助以下文本過濾手段優(yōu)化文本質(zhì)量:一是過濾分詞長(zhǎng)度小于2的詞;二是過濾純數(shù)字;三是過濾純英文,不分大小寫,但保留部分具有特定含義的英文短語;四是過濾純英文與數(shù)字的組合;五是過濾停用詞。最后,在評(píng)估最終效果時(shí),即可通過控制上述幾個(gè)過濾條件來尋找最優(yōu)的文本相似度模型。

2.詞頻權(quán)重優(yōu)化

在TF-IDF(詞頻-逆向文檔頻率)算法中,TF是詞頻,IDF是逆向文檔頻率,如果包含詞條t的文檔越少,則IDF越大,說明詞條t具有更好的類別區(qū)分能力。在文本的預(yù)處理階段,為突出一些領(lǐng)域內(nèi)專業(yè)詞(如“全鏈路監(jiān)控”“生死指標(biāo)”)的重要性,可基于該算法在分詞階段首先進(jìn)行用戶自定義詞典加載,并設(shè)置較高的權(quán)重值,確保這些詞在分詞時(shí)不會(huì)被進(jìn)一步切割。同時(shí)在構(gòu)建詞向量時(shí),當(dāng)出現(xiàn)一些領(lǐng)域內(nèi)具有較好區(qū)分能力的詞時(shí),也可根據(jù)TF-IDF的主要思想調(diào)整其詞語權(quán)重,并將其設(shè)置為低于其他詞的詞語權(quán)重。

3.用戶提問抽象化

在用戶反饋工單中,原始的用戶提問具有非常豐富的多樣性,如某些提問內(nèi)容中往往包含了詳細(xì)的問題描述、報(bào)錯(cuò)信息和主觀描述。但是,由于反饋工單填寫內(nèi)容通常較為詳細(xì),導(dǎo)致其與智能問答系統(tǒng)“短、平、快”的用戶需求存在較大差異;此外,工單文本內(nèi)容往往也較為龐雜,較難有效提煉出用戶真正想要提問的問題。對(duì)此,為更好地利用工單文本對(duì)智能問答實(shí)驗(yàn)?zāi)P瓦M(jìn)行調(diào)優(yōu),項(xiàng)目組采取人工方式優(yōu)化了用戶的原始提問文本,將原先較長(zhǎng)、較復(fù)雜的文本信息進(jìn)行提煉和簡(jiǎn)化,以使其更符合智能問答場(chǎng)景下用戶可能提問的形式與內(nèi)容,用以與原始的文本信息實(shí)驗(yàn)結(jié)果進(jìn)行參照對(duì)比。

4.問答系統(tǒng)效果評(píng)價(jià)

對(duì)于基于FAQ問答對(duì)構(gòu)建的問答系統(tǒng),項(xiàng)目組采用的評(píng)測(cè)方法主要包含了平均排序倒數(shù)與準(zhǔn)確率兩個(gè)維度,并對(duì)采用不同問答模型的相似度計(jì)算方法(“詞袋模型+TF-IDF”“詞袋模型+余弦相似度”“BERT+余弦相似度”)進(jìn)行了效果對(duì)比。

(1)平均排序倒數(shù)

平均排序倒數(shù)(Mean Reciprocal Rank,MRR)是一個(gè)國(guó)際上通用的對(duì)搜索算法進(jìn)行評(píng)價(jià)的機(jī)制,即將第一個(gè)結(jié)果匹配分?jǐn)?shù)設(shè)置為1,第二個(gè)匹配分?jǐn)?shù)設(shè)置為0.5,第n個(gè)匹配分?jǐn)?shù)為1/n,如果沒有匹配的句子則分?jǐn)?shù)為0。最終的分?jǐn)?shù)為所有得分之和。公式如下:

2345截圖20210719174729.png

評(píng)價(jià)結(jié)果顯示,對(duì)于傳統(tǒng)的相似度模型計(jì)算方法,分詞模式采用搜索引擎模式、過濾停用詞的后評(píng)價(jià)效果最佳,MRR可達(dá)到48.8%。而在BERT模型中對(duì)句子的連貫性有一定要求,因此精確模式的分詞效果最理想。此外,當(dāng)對(duì)問題進(jìn)行抽象化概括后,結(jié)果顯示MRR有了明顯的提升,傳統(tǒng)相似度算法和BERT模型在抽象化后均可達(dá)到80%以上。

(2)準(zhǔn)確率

準(zhǔn)確率(Precision,P)一般用于度量問答模型返回最相似問題與訓(xùn)練集已標(biāo)注問題的正確情況。實(shí)踐中,問答模型將返回用戶一組最為相似的問題,即提供給用戶有限個(gè)數(shù)的相似問題供用戶選擇,且訓(xùn)練集中已標(biāo)注的問題編號(hào)唯一。準(zhǔn)確率的判斷公式如下:

2345截圖20210719174729.png

其中,n為訓(xùn)練集用戶提問個(gè)數(shù)。

實(shí)踐中,difflib、TF-IDF和余弦相似度模型均采用了精確分詞模式,BERT模型則采用搜索引擎模式。評(píng)價(jià)結(jié)果顯示,在未對(duì)原始用戶反饋工單進(jìn)行抽象概括的前提下,問答模型在TF-IDF相似度算法下的表現(xiàn)最好,取前5個(gè)最相似問題為輸出答案時(shí)準(zhǔn)確率可達(dá)到62.3%;當(dāng)問題抽象化概括后,取前5個(gè)最相似問題的準(zhǔn)確率可達(dá)92.3%。

三、智能運(yùn)維問答模型的應(yīng)用成效

基于用戶反饋的智能運(yùn)維知識(shí)庫(kù)可看作是運(yùn)維自動(dòng)化領(lǐng)域知識(shí)不斷積累和更新的工作站,用戶反饋工單和智能運(yùn)維平臺(tái)的用戶意見反饋更是了解用戶關(guān)注點(diǎn)、提升技術(shù)運(yùn)營(yíng)服務(wù)水平的重要窗口?;诖?,項(xiàng)目組針對(duì)應(yīng)用運(yùn)維運(yùn)營(yíng)質(zhì)量提升場(chǎng)景,以“運(yùn)營(yíng)+運(yùn)維”知識(shí)庫(kù)建設(shè)作為事實(shí)基礎(chǔ),以NLP文本理解、文本相似度算法作為技術(shù)手段,輸出在線問答(客服)技術(shù)運(yùn)營(yíng)服務(wù),并在數(shù)據(jù)集上采用NLP文本特征提取模型及余弦相似度計(jì)算進(jìn)行了效果評(píng)估。

最終結(jié)果表明,智能運(yùn)維問答模型在平均排序倒數(shù)、準(zhǔn)確率等評(píng)價(jià)指標(biāo)上均取得了較好的表現(xiàn),不僅實(shí)際驗(yàn)證了上述模型的有效性,而且對(duì)于提升應(yīng)用運(yùn)維運(yùn)營(yíng)推廣工作質(zhì)量也有著十分重要的現(xiàn)實(shí)意義。相應(yīng)地,在智能客服投入使用后,基于用戶的廣泛提問,沉淀、提煉出了大量新知識(shí)點(diǎn)反哺到行內(nèi)官方知識(shí)庫(kù)中,最終結(jié)合運(yùn)營(yíng)質(zhì)量評(píng)價(jià)、工單受理效率與回答質(zhì)量構(gòu)建了“運(yùn)維+運(yùn)營(yíng)”的智能知識(shí)庫(kù)閉環(huán)(如圖3所示)。

2345截圖20210719174729.png

圖3“運(yùn)維+運(yùn)營(yíng)”知識(shí)庫(kù)閉環(huán)

四、總結(jié)與展望

1.智能問答模型建設(shè)經(jīng)驗(yàn)

針對(duì)專業(yè)領(lǐng)域的知識(shí)庫(kù)構(gòu)建是一項(xiàng)非?;A(chǔ)且重要的工作,構(gòu)建初期通常由該領(lǐng)域?qū)<胰斯?gòu)建知識(shí)庫(kù)原型;后續(xù),隨著問答對(duì)在實(shí)際應(yīng)用場(chǎng)景中不斷積累,還可采用輔助的文本處理手段不斷更新迭代問答對(duì)。與常見的智能問答系統(tǒng)數(shù)據(jù)集(在線看診、商品導(dǎo)購(gòu)咨詢等)不同,如應(yīng)用運(yùn)維自動(dòng)化等特定領(lǐng)域的智能問答模型沒有現(xiàn)成的數(shù)據(jù)集可復(fù)用。對(duì)此,本文基于用戶反饋工單構(gòu)成的FAQ知識(shí)庫(kù),不僅可以共享給行內(nèi)其他系統(tǒng)用于探索NLP智能問答模型建設(shè),也積累了真實(shí)可用的FAQ知識(shí)庫(kù)構(gòu)建經(jīng)驗(yàn)。

此外,在面向?qū)I(yè)領(lǐng)域的用戶提問純文本預(yù)處理階段,本文除了采用傳統(tǒng)的處理方法,還提供了可參考的運(yùn)維自動(dòng)化領(lǐng)域?qū)I(yè)術(shù)語的定義和面向?qū)嶓w信息識(shí)別的實(shí)踐經(jīng)驗(yàn)。一是在中文分詞時(shí),可提前設(shè)置預(yù)定義的用戶詞典,幫助系統(tǒng)在分詞過程中保留下專業(yè)術(shù)語,如“持續(xù)交付”“心跳監(jiān)控”等;二是在實(shí)體識(shí)別時(shí),應(yīng)注意對(duì)行內(nèi)某些敏感信息(如服務(wù)目錄編號(hào)、身份證號(hào)碼等)實(shí)體進(jìn)行識(shí)別,同時(shí)對(duì)文本處理過程中的無效實(shí)體信息進(jìn)行過濾。

2.常見文本處理算法的比較

實(shí)踐中,本文在相似度算法中選擇了4種較為典型的方法,其中TF-IDF、詞袋模型等均為最傳統(tǒng)的文本向量表示方法,余弦相似度也是最常見的文本相似度計(jì)算方法,同時(shí)本文還選取了近兩年非常熱門的BERT模型進(jìn)行比較。經(jīng)過初期驗(yàn)證,目前效果最好的是TF-IDF模型結(jié)合余弦相似度算法。但是,隨著后續(xù)數(shù)據(jù)體量的不斷擴(kuò)大,預(yù)計(jì)BERT模型、深度學(xué)習(xí)算法將會(huì)逐漸在效果上體現(xiàn)出優(yōu)勢(shì),且鑒于不同實(shí)驗(yàn)階段的算法選擇可能不同,建議后續(xù)研究可根據(jù)實(shí)際情況來決定。

3.數(shù)據(jù)量對(duì)智能問答系統(tǒng)建模的影響

對(duì)于基于FAQ知識(shí)庫(kù)構(gòu)建的問答模型而言,接收的知識(shí)數(shù)據(jù)越多則模型回答問題的準(zhǔn)確度越高。與此同時(shí),伴隨模型輸入數(shù)據(jù)量的不斷積累與用戶規(guī)模的不斷擴(kuò)大,傳統(tǒng)的相似問題檢索技術(shù)將無法滿足后臺(tái)數(shù)據(jù)計(jì)算的性能要求,容易造成問答系統(tǒng)運(yùn)行瓶頸。

對(duì)此,可嘗試引入支持海量數(shù)據(jù)的檢索算法,如Facebook AI團(tuán)隊(duì)開源的Faiss算法,其作為目前較為成熟的近似近鄰搜索庫(kù),可針對(duì)聚類和相似性搜索庫(kù)支持十億級(jí)別向量的搜索需求。

此外,也可引入知識(shí)圖譜技術(shù),通過主題模型的方式進(jìn)行挖掘、標(biāo)注與清洗,再通過預(yù)設(shè)好的關(guān)系進(jìn)行實(shí)體之間關(guān)系的定義,最終形成知識(shí)圖譜,幫助在對(duì)話結(jié)構(gòu)和流程設(shè)計(jì)中支持實(shí)體間的上下文會(huì)話識(shí)別與推理,以及支持海量數(shù)據(jù)的檢索和匹配。

4.文本數(shù)據(jù)提煉的應(yīng)用前景

智能問答場(chǎng)景正式啟用后,每天可能面臨行內(nèi)研發(fā)中心大量用戶提問。但是,目前針對(duì)工單提問文本數(shù)據(jù)抽象簡(jiǎn)化的調(diào)優(yōu)方式效率較低,在實(shí)際應(yīng)用中并不適用。后續(xù),擬采取系統(tǒng)自動(dòng)提取用戶常見問題的方式,通過文本聚類、文本分類等機(jī)器學(xué)習(xí)技術(shù),及時(shí)發(fā)現(xiàn)用戶需求,將系統(tǒng)無法回答的常見問題重新納入知識(shí)庫(kù)從而不斷優(yōu)化模型。

綜上,本文簡(jiǎn)要介紹了NLP領(lǐng)域的各種常用模型、文本相似度計(jì)算原理及文本分析下游消費(fèi)場(chǎng)景,并詳細(xì)闡述了如何構(gòu)建一個(gè)運(yùn)維自動(dòng)化領(lǐng)域的智能問答模型,以及基于該模型如何實(shí)現(xiàn)運(yùn)營(yíng)質(zhì)量提升的相關(guān)方法。基于上述實(shí)踐,不僅為行內(nèi)探索NLP智能問答模型提供了可落地的理論依據(jù)和實(shí)踐經(jīng)驗(yàn),也為智能運(yùn)維系統(tǒng)技術(shù)運(yùn)營(yíng)團(tuán)隊(duì)提供了工程實(shí)踐的解決思路。后續(xù),基于本文的數(shù)據(jù)樣本,還可以應(yīng)用NLP文本處理技術(shù)提供文本質(zhì)量分析、用戶評(píng)價(jià)情感分析、相似工單挖掘等技術(shù)運(yùn)營(yíng)服務(wù),并同步建立各項(xiàng)運(yùn)維自動(dòng)化工具的畫像,幫助工具建設(shè)團(tuán)隊(duì)找出可持續(xù)優(yōu)化的空間。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論