?
近日,騰訊優(yōu)圖首個醫(yī)療AI深度學(xué)習(xí)預(yù)訓(xùn)練模型MedicalNet正式對外開源。這也是全球第一個提供多種3D醫(yī)療影像專用預(yù)訓(xùn)練模型的項目,將為全球醫(yī)療AI發(fā)展提供基礎(chǔ)。
許多研究表明,深度學(xué)習(xí)的發(fā)展非常依賴數(shù)據(jù)量。自然圖像領(lǐng)域中存在著許多海量數(shù)據(jù)集,如ImageNet,MSCOCO。基于這些數(shù)據(jù)集產(chǎn)生的預(yù)訓(xùn)練模型推動了分類、檢測、分割等應(yīng)用的進(jìn)步。不同于自然圖像,醫(yī)療影像大部分都是3D結(jié)構(gòu)形態(tài)的,同時,由于數(shù)據(jù)獲取和標(biāo)注難度大,數(shù)據(jù)量稀少,目前尚未存在海量數(shù)據(jù)集及對應(yīng)的預(yù)訓(xùn)練模型。
MedicalNet(https://github.com/Tencent/MedicalNet)是騰訊優(yōu)圖首個專為3D醫(yī)療影像在深度學(xué)習(xí)應(yīng)用上所開發(fā)的一系列預(yù)訓(xùn)練模型,為任何3D醫(yī)療影像AI應(yīng)用起到“打地基”的作用,加快模型收斂,減輕模型對數(shù)據(jù)量的依賴,MedicalNet具備以下特性:
1、MedicalNet提供的預(yù)訓(xùn)練網(wǎng)絡(luò)可遷移到任何3D醫(yī)療影像的AI應(yīng)用中,包括但不限于分割、檢測、分類等任務(wù);
2、尤其適用小數(shù)據(jù)醫(yī)療影像AI場景,能加快網(wǎng)絡(luò)收斂,提升網(wǎng)絡(luò)性能;
3、通過簡單配置少量接口參數(shù)值,即可進(jìn)行微調(diào)訓(xùn)練;
4、項目提供多卡訓(xùn)練以及測試評估代碼,接口豐富,擴展性強;
5、提供不同深度3D ResNet預(yù)訓(xùn)練模型,可供不同數(shù)據(jù)量級應(yīng)用使用。
為了產(chǎn)生3D醫(yī)療影像的預(yù)訓(xùn)練模型,MedicalNet聚集多個來自不同3D醫(yī)療領(lǐng)域的語義分割小規(guī)模數(shù)據(jù)集,并提出了基于多分支解碼器的多域聯(lián)合訓(xùn)練模型來解決數(shù)據(jù)集中的標(biāo)注缺失問題。我們的預(yù)訓(xùn)練模型可以遷移到任何3D醫(yī)療影像應(yīng)用的深度學(xué)習(xí)模型中。整個系統(tǒng)的工作流程如下圖所示:
?
?
我們將MedicalNet模型遷移到預(yù)訓(xùn)練時未接觸過的Visceral和LIDC數(shù)據(jù)集中,完成全新的肺部分割和肺結(jié)節(jié)分類任務(wù),并與目前常用的從零訓(xùn)練(train from scratch)以及Kinetics視頻3D預(yù)訓(xùn)練模型在性能以及收斂速度上做了比較。在肺部分割應(yīng)用上,相比于Train from Scratch,MedicalNet在Dice上有16%到33%幅度的提升,相比于Kinetics有4%到7%幅度的提升。在肺結(jié)節(jié)良惡性分類應(yīng)用上,相比于Train from Scratch,MedicalNet有6%到23%幅度的預(yù)測正確率(Acc)提升,相比于Kinetics有7%到20%幅度的提升。
在收斂速度上,實驗證明,無論是在肺分割任務(wù)還是肺結(jié)節(jié)分類任務(wù)上,MedicalNet均能為模型提供一個較低的初始化損失值,明顯加快損失下降速度,下圖為MedicalNet性能的一個簡單示例,展示了在全器官分割應(yīng)用中,不同預(yù)訓(xùn)練方式在一定訓(xùn)練迭代次數(shù)下的測試結(jié)果。可以看出,基于我們的預(yù)訓(xùn)練模型(MedicalNet)的結(jié)果最接近標(biāo)簽(ground truth),且遠(yuǎn)優(yōu)于從零訓(xùn)練(train from scratch)的結(jié)果,更多細(xì)節(jié)請參考論文[1]。
?
?
隨著人工智能的火熱化,醫(yī)療影像AI也成為了當(dāng)前各應(yīng)用領(lǐng)域中最熱門的版塊。區(qū)別于其他人工智能應(yīng)用,人工智能在醫(yī)療領(lǐng)域的應(yīng)用門檻最高,最大的原因在于標(biāo)注數(shù)據(jù)的匱乏。醫(yī)療影像數(shù)據(jù)的獲取通常需要經(jīng)歷重重關(guān)卡,同時,由于領(lǐng)域的專一性,數(shù)據(jù)通常需要資深醫(yī)師標(biāo)注,而每個3D數(shù)據(jù)的標(biāo)注耗時耗力。在當(dāng)前緊張的醫(yī)護(hù)資源下,醫(yī)療影像數(shù)據(jù)的獲取戰(zhàn)線將非常漫長,大大阻礙了應(yīng)用落地的進(jìn)程。再者,標(biāo)注數(shù)據(jù)量相當(dāng)有限,大部分醫(yī)療部門都需要面臨數(shù)據(jù)量稀少和深度學(xué)習(xí)之間的鴻溝。
專有領(lǐng)域?qū)S心P停琈edicalNet相當(dāng)于為各個3D醫(yī)療影像應(yīng)用準(zhǔn)備了具備臨床通用知識的數(shù)據(jù)庫。即使在小數(shù)據(jù)量中,該數(shù)據(jù)庫的有效特征也能幫助落地應(yīng)用取得較好的醫(yī)療檢測性能,這大大減輕醫(yī)療影像AI應(yīng)用對數(shù)據(jù)量的依賴,實現(xiàn)了落地需求,加快了落地速度。
MedicalNet是騰訊在醫(yī)療AI領(lǐng)域的首個開源項目,后續(xù)也將繼續(xù)提供更多類型的模型,為全球醫(yī)療AI的基礎(chǔ)建設(shè)助力。
截至2019年8月,騰訊已在Github上發(fā)布81個開源項目,包含騰訊AI、微信、騰訊云、騰訊安全等相關(guān)領(lǐng)域,并累計在 Github 獲得了超過23萬Star數(shù),在國內(nèi)和國際收獲了關(guān)注和認(rèn)可。
[1] Chen, Sihong, Kai Ma, and Yefeng Zheng. "Med3D: Transfer Learning for 3D Medical Image Analysis." arXiv preprint arXiv:1904.00625 (2019).








