搞深度學(xué)習(xí)的人,應(yīng)該感謝“祖師爺”Geoffrey Hinton在2012年的嘗試。
那一年9月30日,Hinton團(tuán)隊上傳了AlexNet在ImageNet視覺識別挑戰(zhàn)賽的成績:
15.3%的錯誤率,比第二名低了10.8個百分點之多!
之所以能出現(xiàn)如此巨大的飛躍,是因為Hinton團(tuán)隊使用了GPU進(jìn)行AI運(yùn)算加速,讓神經(jīng)網(wǎng)絡(luò)AlexNet的實現(xiàn)成為可能,開啟了深度學(xué)習(xí)大爆發(fā)的時代。
那一篇論文的引用量如今已超過8萬次,成為深度學(xué)習(xí)領(lǐng)域引用最高的論文。
Hinton徹底帶火了GPU,帶火了以計算機(jī)視覺為主的醫(yī)療AI。連Hinton本人也對AI輔助醫(yī)療技術(shù)將會迅速成熟充滿了信心。
但是,Hinton可能萬萬沒想到,現(xiàn)在搞醫(yī)療AI的人,尤其是落地部署和使用醫(yī)療AI的人,卻做出了一個違背“祖師爺”的決定:
用CPU來做醫(yī)學(xué)影像領(lǐng)域的輔助診斷推理。
醫(yī)學(xué)影像領(lǐng)域,為何要用CPU?
從AlexNet誕生算起,GPU加速技術(shù)已發(fā)展近十年。為何醫(yī)療AI還要選擇CPU呢?
能不能落地是一個非常重要的原因。
要知道,用AI輔助醫(yī)療診斷不過才出現(xiàn)幾年時間,大多數(shù)醫(yī)療機(jī)構(gòu)可能還沒有做好全面迎接醫(yī)療AI的準(zhǔn)備。
作為最終用戶的醫(yī)院或醫(yī)療機(jī)構(gòu)使用AI,與從事AI技術(shù)或應(yīng)用研發(fā)的企業(yè)推進(jìn)醫(yī)療AI的研究有很大的不同。
從事醫(yī)療AI研究的公司和機(jī)構(gòu),可以快速升級到最新的硬件,用GPU加速AI訓(xùn)練。
但在真正使用醫(yī)療AI的醫(yī)院里,頻繁升級硬件的難度很大,如果在過去的服務(wù)器中加入GPU之類的AI加速硬件,就勢必改造系統(tǒng),不僅增加成本,也會帶來更復(fù)雜的部署和應(yīng)用難題。
倘若能用既有的、基于CPU的硬件架構(gòu)高效、經(jīng)濟(jì)、快捷地進(jìn)行AI醫(yī)療的輔助診斷推理,何樂而不為呢?
一方面,醫(yī)院無需明顯增加系統(tǒng)和人力等成本,也無需大幅修改硬件部署,就能讓先進(jìn)的AI應(yīng)用更快地部署和投入實戰(zhàn),真正讓醫(yī)療AI普惠到每個患者。
另一方面,在醫(yī)學(xué)影像AI方面,既有的CPU平臺,尤其是英特爾主打企業(yè)計算任務(wù)的至強(qiáng)(Xeon),也已經(jīng)做好了準(zhǔn)備,自然也就被熱心于醫(yī)療AI實踐的用戶們看中了。
那么,問題來了,在GPU原本擅長的領(lǐng)域,CPU的能力真的可以勝任嗎?
是時候拋棄對CPU的偏見了
事實證明,只要軟硬件配合得當(dāng),CPU一樣可以實現(xiàn)出色的AI應(yīng)用效果,尤其是進(jìn)行準(zhǔn)確、快速的AI推理。性能優(yōu)化到位的話,在這方面的表現(xiàn)就可與GPU相媲美。
舉例來說,從去年開始影響全球的新冠肺炎疫情,對醫(yī)療機(jī)構(gòu)的快速診斷能力提出了嚴(yán)峻的挑戰(zhàn)。國內(nèi)專注醫(yī)療AI應(yīng)用開發(fā)的匯醫(yī)慧影,就在這個關(guān)鍵時期推出了專攻新冠肺炎CT輔助診斷場景的AI應(yīng)用系統(tǒng),而且使用的就是第二代英特爾至強(qiáng)可擴(kuò)展處理器與英特爾OpenVINO工具套件這一軟硬件組合。
結(jié)果是,OpenVINO幫助AI模型更好地利用了CPU集成的深度學(xué)習(xí)加速技術(shù),與新冠肺炎篩查相關(guān)的肺部CT影像分析場景,在20秒內(nèi)就能完成一個數(shù)據(jù)樣本的推理。
除了性能上的提升外,英特爾至強(qiáng)CPU+OpenVINO工具套件,在加速之余也保證了AI模型的診斷精度不變。
其實早在數(shù)年前,浙江大學(xué)和德尚韻興就曾與英特爾公司合作,用至強(qiáng)CPU和英特爾的軟件優(yōu)化工具開發(fā)過深度學(xué)習(xí)模型,用于在臨床分析甲狀腺的超聲波影像。
△使用深度學(xué)習(xí)進(jìn)行的甲狀腺結(jié)節(jié)檢測和定性診斷(右)
這種AI輔助診斷的準(zhǔn)確度,當(dāng)時就已經(jīng)比中國甲等醫(yī)院的放射科醫(yī)生至少高出10%。
當(dāng)然,這并不是說醫(yī)學(xué)影像AI應(yīng)用會取代醫(yī)生,而是讓影像科醫(yī)生在輔助下能有更高的工作效率,也可以讓經(jīng)驗豐富的醫(yī)生專注于更復(fù)雜的病例。
當(dāng)然,CPU也僅僅是AI計算硬件中的一種,而非唯一的選擇??伤絹碓绞艿结t(yī)療AI領(lǐng)域的青睞,必然有更為深刻的原因:
那便是惠民。
CPU讓AI醫(yī)療更普惠
將“AI+CPU模式”推廣到醫(yī)學(xué)影像中,結(jié)果就是AI技術(shù)更容易落地,被推廣,因為用CPU做AI可以減少異構(gòu)帶來的問題,開發(fā)和部署的門檻低、上手快。
在國內(nèi),許多AI醫(yī)療輔助診斷案例也實實在在地說明,用CPU做AI確實降低了醫(yī)院的成本負(fù)擔(dān),讓經(jīng)費(fèi)、人才和資源有限的醫(yī)院也能用上先進(jìn)的AI模型。
這些AI模型對不同的醫(yī)院和患者可是一視同仁的,它讓社區(qū)醫(yī)院也能具備和大醫(yī)院相近的輔助診斷精度,患者也不必因為一些小病趕去大醫(yī)院,尤其是外地的大醫(yī)院,從而有望從技術(shù)層面上解決老百姓“看病遠(yuǎn)、看病難、看病貴”的問題。
另一家AI醫(yī)療企業(yè)江豐生物也發(fā)現(xiàn),目前醫(yī)療機(jī)構(gòu)的信息化系統(tǒng),基本都基于英特爾架構(gòu)的服務(wù)器構(gòu)建,如果加裝GPU將耗費(fèi)高昂的成本。
通過與英特爾的合作,江豐生物基于至強(qiáng)CPU和深度學(xué)習(xí)技術(shù)開發(fā)了結(jié)核分枝桿菌智能篩查系統(tǒng),巧妙利用英特爾CPU多核、大內(nèi)存的特性,采用多實例異步并發(fā)進(jìn)行處理,最終性能提升到原來的11.4倍。
要知道,目前我國每年新增結(jié)核病患者約90萬例,屬于全球結(jié)核病高負(fù)擔(dān)國家之一;但同時我國肺結(jié)核患者的治療成功率又達(dá)90%以上,治療手段已經(jīng)非常先進(jìn)。
這說明,問題出在結(jié)核病的篩查手段上。
英特爾與江豐生物的合作,就是利用更易于使用的CPU,開發(fā)出快速檢測病理切片圖像的AI方案,大大地提升了醫(yī)療機(jī)構(gòu)病理檢測的生產(chǎn)力。
這種方案能夠保持86.8%的檢測準(zhǔn)確率,以及88.9%的涂片級分級準(zhǔn)確率,80秒內(nèi)即能完成單例涂片的數(shù)字化掃描和涂片定量分級。
△ 結(jié)核分枝桿菌輔助篩查技術(shù)路線圖
江豐生物還基于至強(qiáng)CPU和深度學(xué)習(xí)技術(shù)開發(fā)了宮頸液基細(xì)胞學(xué)篩查系統(tǒng),宮頸癌是一種女性常見的生殖道惡性腫瘤,在全球女性的惡性腫瘤疾病中,宮頸癌發(fā)病率高居第二位。
這個項目在3萬多例宮頸液基細(xì)胞學(xué)數(shù)字圖像的標(biāo)注數(shù)據(jù)上,搭建了目標(biāo)檢測深度學(xué)習(xí)框架。利用至強(qiáng)CPU和大內(nèi)存的優(yōu)勢,解決了訓(xùn)練圖像尺寸受GPU顯存資源約束的問題。用比GPU訓(xùn)練圖像尺寸大5倍的圖塊訓(xùn)練得到的可疑細(xì)胞檢測模型,綜合MAP接近0.43,比用GPU訓(xùn)練得到的模型漲點接近5%。
△宮頸液基細(xì)胞學(xué)篩查系統(tǒng)-技術(shù)路線圖
江豐這些醫(yī)療AI創(chuàng)新成果在落地時,也體現(xiàn)了選擇CPU平臺的好處——模型的部署和使用都非常方便,從三級醫(yī)院至基層醫(yī)院都能快速推廣落地。
這樣,就能在極大程度上消除病理科醫(yī)生水平差異帶來的問題,病患也能通過AI及時獲得更精確的診斷,以及相配套的治療方案。
CPU做AI計算,它很難嗎?
雖然已經(jīng)有了很多實例,目前仍然有許多人對CPU做AI抱有疑慮。
而這些疑慮,主要集中在計算速度和生態(tài)系統(tǒng)這兩點上:
例如:CPU做AI計算,訓(xùn)練和推理速度是不是太低了?又比如:同時,AI生態(tài),對GPU架構(gòu)的支持好像更多喲。
但英特爾,早已為CPU在AI行業(yè)的應(yīng)用,做好了軟硬件兩手準(zhǔn)備。
一方面,針對AI應(yīng)用的算力和數(shù)據(jù)加速,英特爾早從數(shù)年前就開始布局,從硬件架構(gòu)上對AI推進(jìn)了三方面的優(yōu)化:
在2017年發(fā)布的第一代至強(qiáng)可擴(kuò)展處理器上,導(dǎo)入支持AVX-512高級矢量擴(kuò)展技術(shù),讓CPU單位時間內(nèi)能處理更多浮點運(yùn)算任務(wù),用以加速高精度的AI應(yīng)用;
在2019年發(fā)布的第二代至強(qiáng)可擴(kuò)展處理器上,基于AVX-512技術(shù)擴(kuò)展出了英特爾深度學(xué)習(xí)加速(DL Boost)技術(shù),支持INT8加速,主攻推理加速;
2020年發(fā)布的面向四路和八路服務(wù)器的第三代至強(qiáng)可擴(kuò)展處理器時,為這項技術(shù)增添了BF16加速能力,從而兼顧推理和訓(xùn)練的加速;
在2019年推出傲騰持久內(nèi)存,兼具接近DRAM內(nèi)存的高性能,以及DRAM內(nèi)存所不具備的容量、價格和數(shù)據(jù)非易失優(yōu)勢,讓基于CPU的AI系統(tǒng)可以將更大體量的數(shù)據(jù)緩存在距離CPU更近的地方,加速訓(xùn)練和推理。
△英特爾傲騰持久內(nèi)存200系列
時間到了2021年,上述這些產(chǎn)品已經(jīng)演進(jìn)到最新的面向單路和雙路系統(tǒng)的第三代至強(qiáng)可擴(kuò)展處理器,它采用進(jìn)一步優(yōu)化的全新微架構(gòu),基于10納米制程工藝生產(chǎn),并可搭配性能進(jìn)一步提升的第二代傲騰持久內(nèi)存。據(jù)測試,它在AI性能(INT8實時推理吞吐量)上已能達(dá)到第二代至強(qiáng)可擴(kuò)展處理器的1.74倍。
面向多路服務(wù)器的第三代至強(qiáng)可擴(kuò)展處理器,推理和訓(xùn)練性能也分別可達(dá)到上一代產(chǎn)品的1.9倍和1.93倍。
這些測試結(jié)果也是新款至強(qiáng)CPU與英特爾AI優(yōu)化軟件工具搭檔的成果,與硬件的創(chuàng)新幾乎同步,英特爾在軟件上主要干了這些事兒:
推出可優(yōu)化CPU上AI應(yīng)用性能的基礎(chǔ)軟件工具oneDNN;
將oneDNN融入Tensorflow和Pytorch等AI框架,將它們改造成面向英特爾架構(gòu)優(yōu)化的AI框架;
推出可以在大數(shù)據(jù)平臺上開展AI應(yīng)用,將大數(shù)據(jù)與AI無縫對接的Analytics Zoo;
發(fā)布集成各種英特爾架構(gòu)優(yōu)化能力,更易部署且對圖像識別、語義分割、單眼深度估計等幾乎所有CV應(yīng)用提供優(yōu)化的OpenVINO。
順帶一提,現(xiàn)在連OpenCV都支持調(diào)用OpenVINO后端了。(真香!)
如今看來,用CPU做AI,確實沒啥可擔(dān)心的——
甚至在醫(yī)療AI行業(yè),這還是個更好的選擇。
大概,就連當(dāng)年積極將GPU引入醫(yī)療AI行業(yè)的Hinton,也沒預(yù)料到會是這幅景象:
如今的CPU,正在醫(yī)療AI領(lǐng)域大放異彩。