圖:谷歌的健康部門團隊、DeepMind部門和倫敦帝國理工學院使用了三個不同的深度學習神經(jīng)網(wǎng)絡,從上到下分別是Facebook AI的“RetinaNet”與谷歌的“MobileNetV2”結合體,中間部分是ResNet-v2-50,最后底層的ResNet-v1-50。每個神經(jīng)網(wǎng)絡都以不同的方式挑選出乳房X光照片中看起來可疑的區(qū)域,然后對發(fā)現(xiàn)進行匯總,以得出關于癌癥或非癌癥的概率決定
谷歌旗下健康部門Google Health、AI部門DeepMind聯(lián)手倫敦帝國理工學院的研究人員日前在《自然》(Nature)雜志上撰文,描述了三個深度學習網(wǎng)絡如何在某些情況下通過閱讀乳房X光照片診斷癌癥方面勝過人類放射科醫(yī)生。但相關細則顯示,這項技術還沒有達到完全取代放射科醫(yī)生的水平。
如果你得到“相當正確”的評價,也就是說正確多于錯誤,結果可能并不太令人滿意。但如果你是個人工智能(AI)算法,你會為此得到很多贊譽。畢竟,AI程序不一定要給出明確的答案,只需要給出概率答案,或正確答案的可能性(百分比),無論是執(zhí)行自然語言翻譯還是診斷癌癥任務。
AI取得概率成就的最新例子出現(xiàn)在本周的《自然》雜志上,題為“乳腺癌篩查AI系統(tǒng)的國際評估”,由來自谷歌健康部門、DeepMind和倫敦帝國理工學院的31名學者撰寫,作者包括斯科特·邁耶·麥金尼(Scott Mayer McKinney)、馬爾辛·西尼克(Marcin T.Sieniek)、瓦倫·戈德布爾(Varun Godbole)和喬納森·戈德溫(Jonathan Godwin)以及DeepMind首席執(zhí)行官戴米斯·哈薩比斯(Demis Hassabis)等。
頭條新聞是,谷歌的科學在事后數(shù)年的乳房x光檢查中戰(zhàn)勝了英國和美國的放射學家,并宣布是否存在癌癥的診斷,表明“假陽性和假陰性的誤報大幅減少。”這種AI技術甚至擊敗了一個由6名人類放射科醫(yī)生組成的團隊,他們受托執(zhí)行這項任務,查看了500張乳房X光照片,并給出了診斷結果。
結果對AI工具發(fā)展方面做出了重要貢獻,這可能對醫(yī)生也非常有用。但這并不意味著它可以取代人類醫(yī)生的診斷。仔細觀察數(shù)據(jù)很重要,因為里面暗藏著許多鮮為人知的東西。
我們首先看下研究背景:科學家們從英國三家不同的醫(yī)院收集了2012年至2015年間接受乳腺癌篩查的女性數(shù)據(jù),這些女性符合某些標準,如年齡和檢查,總共有13918名女性數(shù)據(jù)。這就是研究人員用來訓練神經(jīng)網(wǎng)絡系統(tǒng)的東西。一旦系統(tǒng)經(jīng)過培訓,另有2.6萬名女性數(shù)據(jù)被用于測試該系統(tǒng)。研究人員還對一家美國醫(yī)院收集的數(shù)據(jù)進行了同樣的處理,即西北紀念醫(yī)院從2001年到2018年收集的數(shù)據(jù),只是樣本數(shù)量要小得多。
科學家們訓練了巧妙的三種不同神經(jīng)網(wǎng)絡,每個神經(jīng)網(wǎng)絡都以不同的細節(jié)水平觀察乳房X光照片。深度學習的這種設置細節(jié)令人著迷,也許代表了結合機器學習網(wǎng)絡的最先進水平。其中一種神經(jīng)網(wǎng)絡是ResNet V-150,到目前為止是一種經(jīng)典的圖像識別方法,由何凱明博士及其微軟同事在2015年開發(fā)。
第二個神經(jīng)網(wǎng)絡是RetinaNet,由Facebook AI研究學者于2017年開發(fā)。第三個是谷歌科學家去年發(fā)布的MobileNet V2神經(jīng)網(wǎng)絡。這是一個非常棒的混合方法,展示了代碼共享和開放的科學出版物如何豐富每個網(wǎng)絡的工作。詳細信息包含在《自然》雜志主要論文底部的補充材料論文中。
現(xiàn)在,棘手的部分來了:經(jīng)過訓練的網(wǎng)絡所判斷的病例中,是否有乳腺癌病例經(jīng)隨后的活組織檢查證實為“基本事實”。換句話說,診斷不僅僅是圖像上的東西是什么樣子的,還包括隨后的醫(yī)學測試通過明確地提取一塊癌變組織而得出的結論。在這種情況下,對于癌癥的存在,答案是明確的是或不是。
但上面描述的三個深度學習神經(jīng)網(wǎng)絡的完美結合,并不能給出是或不是的明確答案。它只會產(chǎn)生一個從0到1的分數(shù)作為一個“連續(xù)值”,而不是二元式的“非此即彼”判斷。換句話說,AI診斷可能是絕對精確的,也可能是完全錯誤的,這取決于在任何給定的情況下,它離正確的值有多近或多遠,是0還是1。
為了將概率分數(shù)與人類在做出判斷時所做的事情相匹配,麥金尼和他的同事們不得不將AI的概率分數(shù)轉換為二進制值。他們是通過一套單獨的驗證測試來挑選單個答案來做到這一點的。將“優(yōu)越性”與人類判斷進行比較,是AI在其產(chǎn)生的更廣泛總答案集中精選出相對準確答案的方式。
正如作者解釋的那樣:“AI系統(tǒng)天生就會產(chǎn)生一個連續(xù)的分數(shù),代表癌癥存在的可能性,因此,為了支持與人類醫(yī)生的預測進行比較,我們對這個分數(shù)進行了閾值劃分,以產(chǎn)生類似的二元篩查決定,在這種情況下,閾值意味著選擇一個單一的點進行比較。對于每個臨床基準,我們使用驗證集來選擇一個不同的操作點,這相當于一個將正面和負面決策分開的分數(shù)閾值。”
與英國的數(shù)據(jù)相比,AI在預測某種東西是否是癌癥方面幾乎和人類一樣好。正如報告中所說,這個術語是“非劣質的”,意思是它并不比人類的判斷力差。AI網(wǎng)絡做得明顯更好的領域是所謂的“特異性”,這是一個統(tǒng)計學術語,意思是神經(jīng)網(wǎng)絡在避免假陽性方面做得更好。也就是說,在不存在的情況下預測疾病。這當然很重要,因為被誤診為癌癥對女性來說意味著太多的壓力和焦慮。
不過,值得注意的是,在這種情況下,人類得分來自醫(yī)生,他們必須判斷是否需要根據(jù)乳房X光檢查進行進一步的檢查,如活檢??梢韵胂?,在診斷的早期階段,醫(yī)生可能會做出過于寬泛的評估,以便推動患者進行進一步的測試,以避免發(fā)生未發(fā)現(xiàn)癌癥的風險。這是醫(yī)生決定病人下一步去哪里和機器猜測幾年后結果的可能性之間的根本區(qū)別。
換句話說,坐在患者面前的醫(yī)生通常不會試圖猜測未來幾年的結果概率,而是試圖確定患者下一步要采取的關鍵步驟是什么?例如,即使AI在特定情況下根據(jù)乳房X光檢查確定癌癥的可能性很低,患者仍會希望他們的醫(yī)生犯了錯誤,并開出活檢處方,以確保安全而不留下遺憾。他們很可能會欣賞這種謹慎。
科學家們在總結部分寫道,盡管AI發(fā)現(xiàn)了醫(yī)生漏掉的病例,但也有好幾個醫(yī)生診斷的患癌病例被AI忽略。這在額外的“讀數(shù)研究”中尤其明顯,在這項研究中,6名人類放射科醫(yī)生觀察了500例癌癥篩查。研究人員發(fā)現(xiàn)了“所有六位放射科醫(yī)生都漏掉的癌癥樣本,但被AI系統(tǒng)正確識別出來”,而“六位放射科醫(yī)生都發(fā)現(xiàn)了的癌癥樣本,卻被AI系統(tǒng)漏掉了。”
有些令人不安的是,作者寫道,目前還不完全清楚AI在每一種情況下成功或失敗的原因。他們稱:“盡管我們無法在這些情況下確定明確的模式,但這種邊緣情況的存在表明,AI系統(tǒng)和人類醫(yī)生在得出準確結論方面可能起到互補作用。”
可以肯定的是,人們想知道更多關于這三個深度學習神經(jīng)網(wǎng)絡是如何進行概率猜測的。比如說,它們看到了什么?這個問題,即神經(jīng)網(wǎng)絡代表什么的問題,沒有在研究中得到解決,但對于AI在如此敏感的應用中來說,這是一個至關重要的問題。
綜上所述,我們面臨的一個大問題是:對于一個能夠比許多必須進行初步評估的醫(yī)生更準確地預測未來癌癥發(fā)展概率的系統(tǒng),我們應該付出多大的努力去開發(fā)?如果這些概率分數(shù)能夠幫助醫(yī)生在某些“邊緣案例”中做出決定,那么,幫助醫(yī)生使用AI的價值將是非常高的,即使在這一點上AI并不能真正取代醫(yī)生。
順便說一句,這項研究同時考察了英國和美國的數(shù)據(jù),得出了一些關于比較醫(yī)療體系質量的令人困惑的發(fā)現(xiàn)??偟膩碚f,從對測試的初步審查來看,英國醫(yī)生的準確率似乎明顯高于美國,他們正確地得出結論,即某些東西將被證明是癌癥。
考慮到使用的數(shù)據(jù)集存在差異,即英國有13981名女性數(shù)據(jù)來自三家醫(yī)院,而美國只有一家醫(yī)院提供3097人的數(shù)據(jù),真的很難知道如何得出這些不同的結果。顯然,與AI同樣有趣的是,在這兩個不同醫(yī)療系統(tǒng)中醫(yī)生的相對能力同樣存在差異。