0、引言
基因組學(xué)、代謝組學(xué)和影像組學(xué)的不斷發(fā)展,為腫瘤患者精準(zhǔn)醫(yī)療提供了大數(shù)據(jù)支撐,但也給腫瘤醫(yī)師數(shù)據(jù)分析帶來巨大挑戰(zhàn)。人工智能(artificial intelligence,AI)尤其是深度學(xué)習(xí)(deep learning,DL)能夠大批量處理高維數(shù)據(jù),在影像識別方面AI能夠自動識別和動態(tài)監(jiān)測靶病灶,輔助臨床醫(yī)師獲得更準(zhǔn)確的影像學(xué)評估,提高工作效率,減少工作負(fù)荷,在腫瘤診斷、復(fù)發(fā)檢測和個體化診療方面具有重要價值。盡管AI在腫瘤輔助診斷領(lǐng)域取得了豐碩成果,但在臨床實踐中尚面臨數(shù)據(jù)可及性、模型魯棒性(Robustness)和泛化性以及結(jié)果可解釋性等諸多挑戰(zhàn)。本文主要對AI基本原理、前沿進(jìn)展、面臨挑戰(zhàn)和未來展望等方面探討AI在惡性腫瘤診斷領(lǐng)域的應(yīng)用進(jìn)展。
1、AI概述及基本原理
人工智能是利用計算機(jī)算法執(zhí)行類似人類的智能行為并完成相關(guān)任務(wù)的技術(shù),最早于20世紀(jì)50年代提出[1],源于數(shù)學(xué)和計算機(jī)科學(xué),是一種迭代的“自學(xué)習(xí)”技術(shù),可發(fā)現(xiàn)數(shù)據(jù)間的內(nèi)在聯(lián)系,并更快地執(zhí)行任務(wù)。
機(jī)器學(xué)習(xí)(machine learning,ML)是AI的分支,興起于20世紀(jì)80年代。ML主要研究計算機(jī)如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,獲取新知識、完善已有知識框架和自身性能。ML可在無明確編程指令的情況下執(zhí)行任務(wù),發(fā)現(xiàn)數(shù)據(jù)間的隱藏關(guān)系[2],進(jìn)行數(shù)據(jù)分析,常用的Logistic回歸、線性回歸、決策樹、隨機(jī)森林(random forest,RF)、樸素貝葉斯和K-means聚類分析、多層感知機(jī)(multi-layer perceptron,MLP)、支持向量機(jī)(support vector machine,SVM)等[3]均屬于ML,其中Logistic回歸廣泛用于腫瘤學(xué)研究[4]。ML可分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和增強學(xué)習(xí)。有監(jiān)督學(xué)習(xí)是將有明確標(biāo)簽的數(shù)據(jù)按一定規(guī)則或比例隨機(jī)分為訓(xùn)練集和驗證集,對訓(xùn)練數(shù)據(jù)進(jìn)行擬合獲得模型,通過驗證集檢驗該模型的效能,從而得出結(jié)論,常用于處理數(shù)據(jù)回歸和分類問題。例如,通過統(tǒng)計兒童性別、各年齡階段的身高和體重等數(shù)據(jù),得出兒童身體發(fā)育模型(回歸),進(jìn)而用于判斷普通兒童的發(fā)育狀態(tài)(分類)。無監(jiān)督學(xué)習(xí)是指數(shù)據(jù)沒有分類標(biāo)簽,計算機(jī)根據(jù)數(shù)據(jù)間的相似性或差異進(jìn)行聚類[5],使同類數(shù)據(jù)差異最小,不同類數(shù)據(jù)差異最大,常用于數(shù)據(jù)降維處理和聚類分析。例如人臉識別系統(tǒng),客戶端將面部圖像進(jìn)行特征提取(降維),與用戶信息一起輸入服務(wù)器終端,當(dāng)需要識別時內(nèi)部系統(tǒng)會對新的面部特征與終端進(jìn)行匹配,即使與錄入時的光線、角度不同,仍能準(zhǔn)確識別用戶身份(聚類)。增強學(xué)習(xí),是指先利用未分類數(shù)據(jù)進(jìn)行訓(xùn)練,建立初步模型,再通過反饋性評價模型優(yōu)劣指導(dǎo)下一步學(xué)習(xí),通過不斷地試錯和反饋進(jìn)行“自我學(xué)習(xí)”,一般解決序列決策和智能控制問題。我們熟知的“Alpha-Go”和“無人駕駛汽車”就是增強學(xué)習(xí)模型的典型代表,其中無人駕駛汽車是通過車載傳感器感知車輛周圍環(huán)境,并根據(jù)車況和路況控制車轉(zhuǎn)向和速度,從而實現(xiàn)安全行駛。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)和深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的新領(lǐng)域,旨在通過計算機(jī)模擬人類大腦進(jìn)行數(shù)據(jù)分析。AI、ML和DL三者關(guān)系,見圖1。ANN源于人大腦神經(jīng)元相互連接的生物學(xué)習(xí)模式[6],具有級聯(lián)、變化和分層等能力。DL是ANN的進(jìn)階,使用分層ANN開發(fā)更為復(fù)雜的學(xué)習(xí)模型,以理解不同維度的數(shù)據(jù)[7]。DL包括深度信念網(wǎng)絡(luò)(deep belief network,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks,CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等,其中卷積神經(jīng)網(wǎng)絡(luò)算法在圖像處理方面具有獨特優(yōu)勢,已用于臨床影像數(shù)據(jù)特征提取和分析,遞歸神經(jīng)網(wǎng)絡(luò)算法通過對時間序列數(shù)據(jù)進(jìn)行分析,用于疾病動態(tài)監(jiān)測。傳統(tǒng)ML需將原始數(shù)據(jù)進(jìn)行特征提取并處理為結(jié)構(gòu)化數(shù)據(jù)集,無法直接處理非結(jié)構(gòu)化的數(shù)據(jù)。DL能直接處理包括圖像、聲音、語言在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù),在臨床影像分類、病歷文本分析和腫瘤診斷[8-9]方面具有優(yōu)勢。
AI:artificial intelligence;ML:machine learning;DL:deep learning.
圖1 AI、ML和DL三者關(guān)系圖
2、AI與惡性腫瘤診斷
AI可利用異質(zhì)性數(shù)據(jù)輔助腫瘤診斷、判斷預(yù)后、制定個體化診療方案[10-13],還可連接眾多的移動設(shè)備,如智能手機(jī)或可穿戴裝備等終端,開發(fā)“數(shù)字生物標(biāo)記物”,預(yù)測臨床結(jié)果。DL在腫瘤診療領(lǐng)域的相關(guān)研究近年來突飛猛進(jìn),見圖2。下面我們將深入探討AI在皮膚腫瘤、肺癌、前列腺癌、乳腺癌及卵巢癌診斷和腫瘤放療的應(yīng)用進(jìn)展。
圖2近十年“Medline/PubMed”中“Deep learning”在腫瘤診療領(lǐng)域文章發(fā)表情況
2.1 AI與皮膚腫瘤
皮膚腫瘤位于體表,其診斷主要依靠病變部位的顏色變化和形態(tài)特征,并通過病理確診。AI中CNN算法可有效處理皮膚腫瘤的圖像數(shù)據(jù),進(jìn)行分割、內(nèi)部特征提取和分類。2018年德國海德堡大學(xué)一項前瞻性研究[14]顯示,AI較皮膚科醫(yī)生能更準(zhǔn)確地診斷皮膚黑色素瘤。該研究通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)深度學(xué)習(xí)20例惡性黑色素瘤和80例良性痣的圖片,與17個國家58名皮膚科醫(yī)生的診斷進(jìn)行比對,結(jié)果顯示,CNN算法的診斷符合率(AUC)為0.86,高于皮膚科醫(yī)生的0.79(P<0.01);特異性為82.5%,高于皮膚科醫(yī)生71.3%(P<0.01)。斯坦福大學(xué)研究人員[15]收集2 032種不同皮膚病變共計129 450幅病理圖像,根據(jù)病理分為:(1)良性痣與惡性黑色素瘤;(2)良性脂溢性角化病與角化細(xì)胞癌;采用CNN算法對圖像進(jìn)行特征提取,并進(jìn)行疾病分類,實現(xiàn)了多種皮膚疾病的自動診斷,其中惡性黑色素瘤和角化細(xì)胞癌的診斷準(zhǔn)確率高達(dá)96%。隨著AI的進(jìn)一步推廣,將提高皮膚科醫(yī)師,特別是基層醫(yī)師的皮膚腫瘤診斷準(zhǔn)確率。
2.2 AI與乳腺癌
AI用于診斷乳腺腫瘤,主要為乳房成像計算機(jī)輔助診斷系統(tǒng)(computer-aided diagnosis system,CADS),不受放射科醫(yī)師的讀片模式、疲勞、分心等因素影響,能有效提高乳腺癌診斷敏感度[16-17]。IBM研究所[18]利用13 234例女性的52 936幅乳房鉬靶圖像,其中9 611例為訓(xùn)練集,3 603例為測試集,結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行乳腺癌診斷,其診斷水平與放射科醫(yī)師相當(dāng),且顯著降低了漏診率(AUC=0.91)。AI不僅能準(zhǔn)確識別乳腺鉬靶圖像,也可對乳腺癌病理圖像進(jìn)行分類診斷。土耳其研究人員[19]在2014年國際模式識別會議(ICPR-2014)公布了乳腺病理圖像良惡性判斷的AI算法。該研究采用聚類分割與Blob分析相結(jié)合的方法,將圖像分為前景和背景,自動裁剪細(xì)胞圖像塊,并進(jìn)行特征提取,再采用無監(jiān)督機(jī)器學(xué)習(xí)主成分分析(principal component analysis,PCA)和線性判別分析(linear discriminant analysis,LDA)相結(jié)合的降維算法,最后通過有監(jiān)督機(jī)器學(xué)習(xí)支持向量機(jī)(SVM)對有絲分裂和無分裂細(xì)胞進(jìn)行分類,實現(xiàn)了乳腺癌AI病理診斷(AUC=0.97)。
2.3 AI與肺癌
醫(yī)學(xué)成像與AI結(jié)合在鑒別良惡性肺結(jié)節(jié)、提高肺癌早期診斷和鑒別診斷中發(fā)揮重要作用。谷歌人工智能團(tuán)隊[20]提出基于肺CT圖像預(yù)測肺癌風(fēng)險的深度學(xué)習(xí)算法,使用深度學(xué)習(xí)CNN算法對NLST數(shù)據(jù)庫中6 716例CT圖像進(jìn)行訓(xùn)練和模型構(gòu)建,1 139例肺部CT圖像進(jìn)行驗證。該AI模型實現(xiàn)了癌性肺結(jié)節(jié)的自動化篩選,提高了肺癌篩查的準(zhǔn)確性,同時減少了放射科醫(yī)師的讀片工作量和漏診率(AUC=0.94)。在肺癌治療方面,波士頓哈弗醫(yī)學(xué)院Xu等[21],通過深度學(xué)習(xí)利用CNN算法和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)算法相結(jié)合,將268例局部晚期非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)患者多個時間點的影像數(shù)據(jù)整合,實現(xiàn)了對NSCLC患者不同治療方式的療效和預(yù)后評價。在免疫治療療效評估方面,F(xiàn)umet團(tuán)隊采用有監(jiān)督機(jī)器學(xué)習(xí)彈性網(wǎng)算法建立了基于放射組學(xué)的CD8+T細(xì)胞表達(dá)特征的預(yù)測模型,可評估NSCLC患者浸潤C(jī)D8+T細(xì)胞的數(shù)目,進(jìn)而預(yù)測PD-1/PD-L1單抗的治療效果[22]。
2.4 AI與前列腺癌
多點前列腺穿刺活檢、多參數(shù)磁共振成像(MP-MRI)、彩色多普勒超聲三結(jié)合是前列腺癌診斷的主要手段。人工智能與影像組學(xué)結(jié)合可實現(xiàn)前列腺癌自動檢測、定位、分期和動態(tài)監(jiān)測。約翰霍普金斯大學(xué)Anas等[23]利用CNN和RNN算法進(jìn)行空間特征提取和前列腺超聲圖像時間信息整合,提出一種基于深層學(xué)習(xí)的前列腺圖像實時分析技術(shù)。該研究通過2 238幅超聲圖像進(jìn)行訓(xùn)練,637和1 017幅圖像分別用于驗證和測試,結(jié)果顯示2 mm誤差范圍內(nèi)平均Dice系數(shù)為93%,平均表面距離誤差為1.10 mm,提示AI技術(shù)可精準(zhǔn)進(jìn)行良惡性腫瘤判斷和自動化定位。
2.5 AI與卵巢癌
卵巢癌早期癥狀隱匿,約75%的患者確診時已進(jìn)入晚期[24],因此在初始治療前,準(zhǔn)確預(yù)測卵巢癌臨床分期、治療效果和預(yù)后具有重要意義。日本慈惠大學(xué)研究人員[3]通過收集334例上皮型卵巢癌患者和101例卵巢良性腫瘤患者的臨床信息,包括治療前年齡,CA125、CA19-9、白蛋白等32種血液生物標(biāo)志物數(shù)據(jù),利用隨機(jī)森林、條件隨機(jī)森林(conditional random forest,CRF)、樸素貝葉斯、支持向量機(jī)和Logistic回歸等多種有監(jiān)督機(jī)器學(xué)習(xí)算法建立卵巢癌特異性預(yù)測模型,用于評估患者的臨床分期、病理類型、手術(shù)預(yù)后等(AUC=0.978),并進(jìn)一步利用無監(jiān)督學(xué)習(xí)PAM聚類算法,發(fā)現(xiàn)了早期EOC的風(fēng)險亞組,為卵巢癌早篩和個體化治療提供了依據(jù)。天津中心醫(yī)院劉麗等[25]利用CNN、AlexNet和GoogLeNet等多種神經(jīng)網(wǎng)絡(luò)和RF相結(jié)合,開發(fā)了基于彩色多普勒超聲的卵巢癌良惡性預(yù)測模型,其中GoogLeNet模型敏感度為96.78%,特異性為92.84%,AUC為0.975。復(fù)發(fā)是影響卵巢高級別漿液腺癌患者預(yù)后的主要因素,四川大學(xué)華西醫(yī)院團(tuán)隊[26]對245例患者術(shù)前CT圖像進(jìn)行機(jī)器學(xué)習(xí),建立卵巢癌非侵入性復(fù)發(fā)預(yù)測模型,可有效區(qū)分高、低危復(fù)發(fā)風(fēng)險亞組,并可預(yù)測3年復(fù)發(fā)率(AUC=0.772~0.825,P=0.0038~0.0164)。
2.6 AI助力腫瘤放療
隨著放射組學(xué)和人工智能在放療領(lǐng)域研究的不斷深入,以AI為基礎(chǔ)的智能組學(xué)放療(AI-omics radiotherapy)實現(xiàn)了分子水平的精準(zhǔn)放療[27]。智能組學(xué)放療主要包括放療決策、靶區(qū)勾畫和療效評價三個方面。放療決策方面,根據(jù)個體的生物組學(xué)信息和生物學(xué)特征精準(zhǔn)選擇放療方式和劑量;靶區(qū)勾畫方面,根據(jù)影像組學(xué)和AI結(jié)合,自動將正常組織和腫瘤區(qū)分,并通過虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR)技術(shù)實現(xiàn)全息放療靶區(qū)構(gòu)建;療效評價方面,動態(tài)觀察放療過程中組學(xué)信息變化,并及時針對性的調(diào)整放療策略[28-29]。以AI為基礎(chǔ)的放射組學(xué)在腦腫瘤、鼻咽癌、肺癌等多種實體瘤可實現(xiàn)自動靶區(qū)勾畫,有效減少重要器官損傷。美國哈弗醫(yī)學(xué)院Shusharina等[30]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對206例腦膠質(zhì)瘤和膠質(zhì)母細(xì)胞瘤的CT和MR圖像進(jìn)行分割學(xué)習(xí),實現(xiàn)腦腫瘤、腦室、大腦鐮和小腦幕等結(jié)構(gòu)的準(zhǔn)確自動分割,2 mm誤差范圍內(nèi)Dice系數(shù)為91%~97%,與放療醫(yī)師靶區(qū)勾畫范圍具有很好一致性。中山大學(xué)孫穎教授團(tuán)隊[31]利用3D卷積神經(jīng)網(wǎng)絡(luò)(CNN)對818例鼻咽癌的MR圖像進(jìn)行靶區(qū)自動勾畫訓(xùn)練,并在203幅獨立MR圖像數(shù)據(jù)進(jìn)行驗證,平均表面距離2.0 mm誤差范圍內(nèi)Dice系數(shù)為79%,該AI模型可提高鼻咽癌靶區(qū)勾畫的準(zhǔn)確性,對腫瘤控制和患者預(yù)后有積極意義。肺部腫瘤靶區(qū)勾畫易受呼吸運動影響,給放療的準(zhǔn)確性和安全性提出挑戰(zhàn),賓夕法尼亞大學(xué)Lin等[32]將隨機(jī)森林(RF)、多層感知器(MLP)、LightGBM和XGBoost四種機(jī)器學(xué)習(xí)算法相結(jié)合,評估呼吸運動影響下肺腫瘤前后、左右、上下運動模式,以準(zhǔn)確預(yù)測肺腫瘤運動范圍,實現(xiàn)精準(zhǔn)動態(tài)的勾畫靶區(qū)。
3、結(jié)論和展望
盡管AI在腫瘤輔助診斷領(lǐng)域取得了一定成果,但其在臨床實踐轉(zhuǎn)化方面仍面臨諸多挑戰(zhàn)[33],主要挑戰(zhàn)可歸納為三個方面:(1)數(shù)據(jù)的可及性:AI是數(shù)理科學(xué),可靠的AI模型需大量高質(zhì)量訓(xùn)練數(shù)據(jù)支撐,但很多醫(yī)院或研究機(jī)構(gòu)出于研究保密或患者隱私保護(hù),很難實現(xiàn)數(shù)據(jù)共享,數(shù)據(jù)的“孤島現(xiàn)象”是困擾AI臨床應(yīng)用的關(guān)鍵問題。(2)模型魯棒性和泛化性:魯棒性是指模型的抗干擾能力,泛化性指模型對未訓(xùn)練數(shù)據(jù)的預(yù)測能力,即A醫(yī)院數(shù)據(jù)獲得的模型在B醫(yī)院預(yù)測的準(zhǔn)確性。模型的魯棒性和泛化性主要受限于數(shù)據(jù)本身的一致性和數(shù)據(jù)標(biāo)簽注釋的主觀性。不同的拍照設(shè)備、光照條件和個體間差異將影響圖像數(shù)據(jù)的一致性,不同的檢驗儀器、檢驗試劑也對臨床數(shù)據(jù)影響較大。(3)結(jié)果可解釋性:AI尤其是DL通常被認(rèn)為是“黑匣子”,因為其內(nèi)部決策過程被成千上萬的訓(xùn)練參數(shù)所掩蓋。實踐中AI算法的權(quán)重和特征通常是不可解釋的,因此,臨床醫(yī)師很難充分把握模型的工作過程和具體影響因素。隨著多中心研究的開展、公共數(shù)據(jù)庫平臺的開放,將進(jìn)一步推進(jìn)大數(shù)據(jù)可及性;多種可視化工具的開發(fā),也為AI結(jié)果解讀提供更多參考。
隨著AI在醫(yī)療領(lǐng)域的應(yīng)用發(fā)展,AI在數(shù)據(jù)安全和個人隱私保護(hù)方面應(yīng)備受關(guān)注[34],AI數(shù)據(jù)收集使用,須堅守倫理道德和法律法規(guī),避免泄露患者隱私,從而讓AI技術(shù)更好應(yīng)用于腫瘤診療,服務(wù)患者。未來AI能否完全代替醫(yī)生,尚需時間檢驗,目前可以肯定的是,AI可輔助醫(yī)師診療,減輕臨床工作量,緩解醫(yī)療資源壓力,促進(jìn)醫(yī)學(xué)進(jìn)步和醫(yī)療服務(wù)質(zhì)量的提高。