文章專區

2020-07-15判讀肺炎徵狀的AI小幫手-MedCheX 463 期

Author 作者 蔣榮先/成功大學醫學院附設醫院資訊長、成功大學資訊工程學系特聘教授,致力於AI、智慧醫療發展。
2019新冠病毒疾病(COVID-19)的散播造成全球性的嚴重疫情,各大醫療院所與科研單位都在共同合作來防堵疫情擴散,在防疫的過程中,篩檢是非常重要的一環。胸腔X光(X-ray)亦是一項重要的檢查指標,用來判斷病患是否出現肺炎等徵狀。當受檢驗的患者數量過多,或醫護人員人手不足時,便無法即時做出診斷,甚至疏忽掉一些較不明顯的病灶,容易造成防疫缺口並使疫情加劇,需要耗費更多社會資源挽救。因此,MedCheX開發團隊設想利用人工智慧(artificial intelligence, AI)相關技術來輔助醫護人員,在判讀胸腔X光時給予可疑病徵的資訊。

緣起:自發性氣胸的預警模型

該發想開始之前,MedCheX開發團隊原先正專注於開發預警自發性氣胸(spontaneous pneumothorax)的AI模型。該模型可用電腦迅速自動判讀醫學影像,並對自發性氣胸高風險患者示警,為團隊開發MedCheX奠定基礎並累積大量經驗與資源。

團隊採用較常見的UNet與特徵金字塔網路(Feature Pyramid Network, FPN)作為模型基礎,接著利用臨床醫師標註完成的數千筆胸腔X光資料來訓練肺炎偵測模型,並建置預警系統。當患者拍攝胸腔X光時,儲存資料的同時就會經過模型掃描,並針對較高風險的影像發出警訊,提醒臨床醫師優先進行該影像的判讀,而模型也會利用熱區圖(heatmap)來顯示風險較高的區域,以此來輔助醫療人員進行診斷。

具專家註解的資料集誕生

過去,AI醫學影像的發展上,一直存在一個難以跨越的瓶頸:雖然能建立完整的胸部X光影像自動判讀模型,但始終缺乏具有放射學專家註解以及專家評估標準的資料集,使得模型的精準度不足,進而造成實用價值降低。直到在2019年初,美國史丹佛大學(Stanford University)與麻省理工學院(Massachusetts Institute of Technology, MIT)分別公布了美國東西兩岸頂尖醫學中心的醫療影像資料集,才讓全世界的醫療團隊得以經過授權,取得全部的去識別化資料(de-identified data)。

首先是史丹佛大學教授吳恩達,在全世界最頂尖的人工智慧研討會 ──人工智慧促進協會(Association for the Advancement of Artificial Intelligence, AAAI)年會上發表論文公布大型胸部X光資料集CheXpert,並徵求全世界AI高手使用該影像資料集來參與競賽。資料包含超過22萬張胸部X光照片,為過去15年來在史丹佛醫院進行胸部X光檢查的超過6萬名患者所留存,同時還附有完整的相關放射科醫師報告,報告針對像是肺部病變、肺炎或是肋膜積水等14項觀察進行多位專家標注為陰性、陽性或不確定。

麻省理工學院緊接著公布含有超過37萬張胸部X光照片的資料集MIMIC-CXR,提供過去五年來在美國哈佛大學醫學院貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center, BIDMC)所收集的部分資料,大家夢寐以求的資料集終於可以公開取得,這也意味著更加精準的胸部X光影像自動判讀模型開發條件已萬事俱備。

影像細部特徵辨識與系統整體的優化

開發初期,團隊使用史丹佛大學釋出的胸部X光影像來開發自動偵測肺炎的AI模型,初期影像的辨識度相當高。接著,利用美國國家衛生研究院(National Institutes of Health, NIH)所公開的胸腔X光資料集,從中挑選具有/無肺炎病徵共3000筆資料進行對AI模型測試,可惜辨識結果一直未達理想標準。

經過團隊與臨床醫師數次的密集討論,發現最可能的原因應是公有資料集影像品質不佳、資料來源過於複雜、不同等級的醫院所拍攝之影像目的不盡相同、標註水平參差不齊等。上述問題,在過去從未被研究人員提出,直接導致傳統AI模型在臨床上不能被使用。

瞭解問題來源後,研究團隊更改策略,在深度學習中使用容錯性更佳的網路架構ResNeXt進行調整與訓練。為加強模型對細緻特徵的擷取,團隊更改策略並重新調整模型網路架構,在對病患影像特徵從粗糙到細緻的計算過程中,能更有彈性地保留原始真實資訊。另一方面,團隊利用「金字塔型特徵萃取法(pyramidal feature representations)」,以階層式的設計強化模型的感知視野,讓模型在大小不同的病徵影像上有更好的識別能力。


此外,為便於使用,開發團隊著手建置透過胸部X光影像自動偵測肺炎的AI模型平台,使用以超文本預處理器(php)作為程式語言所搭建的Laravel框架,打造出這套網頁應用程式,目前部署伺服器為阿帕契(Apache)。資料庫端使用Laravel Eloquent ORM〔註一〕與MySQL〔註二〕相配合,達到能夠快速開發與維護的程式 品質。認證部分使用Laravel框架中驗證(authentication)與授權(authorization)等多項所預先配置的認證系統,藉以實現安全的使用者認證。通過Laravel Queue〔註三〕的統一應用程式介面(application programming interface, API),配合後端為Redis〔註四〕進行多項管理任務。

結語

藉由上述機制建構出安全及可靠與快速的服務。使用者能夠透過此平台,自行上傳資料進行影像預測。基於病患個資的保護,本系統目前僅接受影像檔(如jpg、png等常見的影像格式),避免使用者有使用DICOM〔註五〕時所擔憂的個資問題產生。MedCheX是因應COVID-19所導致的全球性疫情而開發,現階段最大的目標,包括在醫療場域上協助防疫檢測、輔助醫護人員(paramedic)、快速找出潛在患者,以及降低社區感染風險。

在輔助醫護人員吃緊的地方,MedCheX可能成為過濾新冠狀病毒的第一道防線,當醫護人員透過系統快速得到初步預測結果,也可從中逐漸瞭解新冠狀病毒在胸腔X光影像中所表現的症狀,讓醫護人員能專注在治療高風險病患上,將資源最大利益的分配。

〔註一〕這是免費開源php網頁框架Laravel 內一個名為Eloquent的物件關聯對映(object relational mapping, ORM)結構。它可以幫助使用者更簡便、安全地從資料庫中讀取資料,透過程式語言(如Ruby或 Java)來操作資料庫語言(如SQL)。

〔註二〕結構化查詢語言(structured query language, SQL)是用於訪問數據庫的標準化語言,而MySQL則是一個由甲骨文(Oracle)公司所支持的數據庫管理系統。

〔註三〕這種隊列(Queue)服務為不同的隊列後端系統提供一個統一的API,使用者可透過這項服務,將一個耗時的任務做延遲處理,如寄送 e-mail;如此一來,應用程式對網頁的請求反應就會更快。這個概念如同一家餐廳的運作,當客人的訂單(queue)送進廚房(Redis),廚師(Queue Worker)便會依訂單(queue) 上的食譜(Job)執行任務。

〔註四〕Redis是一個記憶體內(in-memory)的鍵值資料庫(key-value database),因此常常被用在需要快取(cache)一些資料的場合,藉此減輕後端資料庫的壓力。

〔註五〕醫療數位影像傳輸協定(Digital Imaging and Communications in Medicine, DICOM)是一組對於醫學影像的處理、儲存、列印和傳輸等方面的通用標準協定,包含檔案格式的定義及網路通信協定。