人工智能診斷或預(yù)測疾病風(fēng)險的能力正迅速提升,一些人工智能工具已經(jīng)進入臨床實踐。最近幾周,研究人員公布了通過掃描視網(wǎng)膜圖像即可預(yù)測眼睛和心血管疾病風(fēng)險的人工智能模型,并可通過分析乳房X光線照片來檢測乳腺癌。
人工智能診斷具備改善醫(yī)療服務(wù)的交付和提高效率的潛力,它代表了多年來計算能力和深度學(xué)習(xí)背后的神經(jīng)網(wǎng)絡(luò)研究的提升。研究人員認(rèn)為,當(dāng)一種算法能夠像病理學(xué)家和放射科醫(yī)師那樣有效地從這些圖像中識別出特定的病癥,那么該算法可以說是成功的。
但這并不意味著人工智能診斷已做好了臨床的準(zhǔn)備。有關(guān)人工智能診斷的許多研究很成功,令人歡欣鼓舞,可是科學(xué)的研究過程要求詳細(xì)描述研究方法和所用材料,并在研究的過程中反復(fù)試驗,最后還需進行大量的臨床試驗。人工智能診斷在這些方面還遠(yuǎn)遠(yuǎn)不夠。許多業(yè)內(nèi)人士抱怨說,開發(fā)人員并沒有把研究工作做得足夠深入。他們沒有采用像藥物開發(fā)那樣在成熟領(lǐng)域建立得以證據(jù)為基礎(chǔ)的試驗方法。他們沒有想藥物開發(fā)那樣使用基于實證的研究方法
例如,許多關(guān)于新的人工智能診斷工具的報告,只會在網(wǎng)站的預(yù)印本或聲明中出現(xiàn)。這些報告沒有經(jīng)過行業(yè)的評審,也可能永遠(yuǎn)不會。而行業(yè)的評審會驗證這些研究的關(guān)鍵細(xì)節(jié),如:基礎(chǔ)算法代碼和分析、用于訓(xùn)練模型的圖像、與之類比的醫(yī)生、用于神經(jīng)網(wǎng)絡(luò)做決定的特征、診斷的警告等。
這些細(xì)節(jié)至關(guān)重要。例如,去年發(fā)表的一項調(diào)查發(fā)現(xiàn),將每個X光照片的評估時間限定為1分鐘時,利用人工智能模型檢測乳腺癌的效果要好于11名病理學(xué)家。然而,當(dāng)不再限制時間時,病理學(xué)家比計算機發(fā)現(xiàn)了更多難以檢測的病例。
還一些問題只有在實際應(yīng)用時才會出現(xiàn)。例如,診斷算法可能會錯將某些特定設(shè)備生成的圖像與某些疾病聯(lián)系起來。但這僅僅可能是因為該算法在訓(xùn)練過程中,使用該設(shè)備的醫(yī)療機構(gòu)檢測的此類病人比使用不同設(shè)備的另一家醫(yī)療機構(gòu)更多。
這些問題是可以克服的。一種方法是,對于醫(yī)生來說,在醫(yī)療機構(gòu)里使用人工智能診斷工具后,醫(yī)生需要追蹤結(jié)果并報告,這樣回溯性研究就會暴露出該工具的缺陷。更好的方法是,這些工具應(yīng)該被嚴(yán)格地開發(fā)——在大量數(shù)據(jù)上進行訓(xùn)練測試,并在經(jīng)過行業(yè)評審的受控研究中進行驗證。這是一個緩慢而困難的過程,一部分的原因在于隱私問題使得研究人員很難獲得所需的大量醫(yī)療數(shù)據(jù)。
《自然》雜志的一篇報道探討了一個可行的方法:研究人員正在構(gòu)建基于區(qū)塊鏈的系統(tǒng),以鼓勵患者安全地分享信息。目前,人類的監(jiān)督可能會防止人工智能診斷中出現(xiàn)的問題釀成關(guān)乎性命的大問題。因此,美國食品和藥物管理局等監(jiān)管機構(gòu)允許醫(yī)生進行低風(fēng)險的技術(shù)試驗。
但缺乏嚴(yán)謹(jǐn)?shù)膽B(tài)度確實會帶來直接的風(fēng)險:炒作失敗周期可能會阻止其他人投資類似的技術(shù),這可能會更好。有時候,在競爭激烈的領(lǐng)域,如人工智能,一個廣為人知的研究成果足以阻止對手進入同一領(lǐng)域。
細(xì)致而謹(jǐn)慎的研究是一種更好的方法。需要可靠的數(shù)據(jù)和強大方法支撐的研究可能需要更長時間,并且不會產(chǎn)生盡可能多的令人滿意的結(jié)果。但只有這樣才能將人工智能診斷的研究引向正軌,并可防止因失誤造成的病人死亡,從而真正改善我們的生活。