版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

完敗于人類醫(yī)生!AI臨床決策草率且不安全,最低正確率僅13%

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個重大突破。
收藏

人類醫(yī)生,會因為 ChatGPT 等大模型紛紛下崗嗎?

這種擔(dān)心,并非空穴來風(fēng)。畢竟,谷歌的大模型(Med-PaLM 2)已經(jīng)輕松拿下了美國醫(yī)學(xué)執(zhí)照考試,達到了醫(yī)學(xué)專家的水平。

然而,一項最新研究表明:在臨床方面,人類醫(yī)生完勝目前的人工智能(AI)模型,無需過于擔(dān)心個人「失業(yè)問題」。

相關(guān)研究論文以“Evaluation and mitigation of the limitations of large language models in clinical decision-making”為題,已于近日發(fā)表在科學(xué)期刊 Nature Medicine 上。

圖片
該研究發(fā)現(xiàn),即使是目前最先進的大語言模型(LLM)也無法為所有患者做出準(zhǔn)確診斷,且表現(xiàn)明顯差于人類醫(yī)生——

醫(yī)生的診斷正確率為 89%,而 LLM 的診斷正確率僅為 73%。在一個極端情況(膽囊炎診斷)下,LLM 正確率僅為 13%。

更令人驚訝的是,隨著對病例信息的了解增多,LLM 的診斷準(zhǔn)確度反而會降低,有時甚至?xí)筮M行一些可能對患者有嚴重健康風(fēng)險的檢查。

化身急診科醫(yī)生,LLM 表現(xiàn)如何?

盡管 LLM 可以輕松拿下美國醫(yī)學(xué)執(zhí)照考試,但醫(yī)學(xué)執(zhí)照考試和臨床案例挑戰(zhàn)適合只測試考生的一般醫(yī)學(xué)知識,難度遠不如日常復(fù)雜的臨床決策任務(wù)

臨床決策是一個多步驟的過程,需要從不同來源收集和整合數(shù)據(jù),并不斷評估事實以達成基于證據(jù)的患者診斷和治療決策。

為了進一步研究 LLM 在臨床診斷中的潛力,來自慕尼黑工業(yè)大學(xué)的研究團隊及其合作者基于醫(yī)療信息市場重癥監(jiān)護數(shù)據(jù)庫(MIMIC-IV)制作了一個涵蓋 2400 個真實患者案例和 4 種常見腹部疾病(闌尾炎、胰腺炎、膽囊炎和憩室炎)的數(shù)據(jù)集,模擬現(xiàn)實的臨床環(huán)境,重現(xiàn)從急診到治療的過程,從而評估其作為臨床決策者的適用性。

圖片

圖|數(shù)據(jù)集來源及評估框架。該數(shù)據(jù)集來源于 MIMIC-IV 數(shù)據(jù)庫中的真實病例,包含住院期間記錄的全面電子健康記錄數(shù)據(jù)。評估框架反映了一個現(xiàn)實的臨床環(huán)境,從多個標(biāo)準(zhǔn)對 LLM 進行全面評估,包括診斷準(zhǔn)確性、遵循診斷和治療指南的情況、遵循指令的一致性、解釋實驗室結(jié)果的能力,以及對指令變化、信息量和信息順序變化的魯棒性。ICD,國際疾病分類;CT,計算機斷層掃描;US,超聲波;MRCP,磁共振胰膽管成像。

研究團隊測試了 Llama 2 及其衍生版本,包括通用版本(如 Llama 2 Chat、Open Assistant、WizardLM)和醫(yī)學(xué)領(lǐng)域?qū)R的模型(如 Clinical Camel 和 Meditron)。

由于 MIMIC 數(shù)據(jù)的隱私問題和數(shù)據(jù)使用協(xié)議,數(shù)據(jù)不能用于如 OpenAI 或 Google 的外部 API,因此未能測試 ChatGPT、GPT-4 和 Med-PaLM。值得注意的是,Llama 2、Clinical Camel 和 Meditron 在醫(yī)學(xué)許可考試和生物醫(yī)學(xué)問答測試中的表現(xiàn)已達到甚至超過了 ChatGPT。

測試對照組為四位來自兩個國家且有不同年限(分別是 2 年、3 年、4 年和 29 年)急診經(jīng)驗的內(nèi)科醫(yī)生。結(jié)果顯示,LLM 在臨床診斷中的表現(xiàn)遠不如人類醫(yī)生。

1.LLM 的診斷性能顯著低于臨床

醫(yī)生結(jié)果顯示,當(dāng)前 LLM 在所有疾病的整體表現(xiàn)上顯著遜色于醫(yī)生(P < 0.001),診斷準(zhǔn)確性差距在 16%-25% 之間。雖然模型在簡單的闌尾炎診斷中表現(xiàn)較好,但在膽囊炎等其他病理的診斷中表現(xiàn)不佳,特別是 Meditron 模型在膽囊炎診斷中失敗,常將患者診斷為“膽結(jié)石”。

專業(yè)醫(yī)學(xué) LLM 在整體表現(xiàn)上未顯著優(yōu)于其他模型,而當(dāng) LLM 需要自行收集所有信息時,其表現(xiàn)會進一步下降。

圖片

圖|全信息提供條件下的診斷準(zhǔn)確率。數(shù)據(jù)基于 MIMIC-CDM-FI 的一個子集(n=80),每個條形圖上方顯示了平均診斷準(zhǔn)確率,垂直線表示標(biāo)準(zhǔn)偏差。LLM 的平均表現(xiàn)顯著較差(P < 0.001),尤其是在膽囊炎(P < 0.001)和憩室炎(P < 0.001)方面。

圖片

圖|自主臨床決策場景下的診斷準(zhǔn)確率。對比全信息提供場景下,模型判斷正確率整體都有明顯下降。LLM 在診斷闌尾炎時表現(xiàn)最好,但在膽囊炎、憩室炎和胰腺炎這三種病理上表現(xiàn)較差。

2.LLM 的臨床決策草率且不安全

研究團隊發(fā)現(xiàn),LLM 遵循診斷指南方面表現(xiàn)不佳,容易遺漏患者的重要身體信息。此外在安排患者必要實驗室檢查方面缺乏一致性。LLM 在解讀實驗室結(jié)果方面也有明顯不足。這表明它們在沒有充分了解患者病例的情況下草率診斷,對患者健康構(gòu)成嚴重風(fēng)險。

圖片

圖|LLM 推薦治療方式評估。期望的治療方案是根據(jù)臨床指南和數(shù)據(jù)集中患者實際接受的治療確定的。在 808 名患者中,Llama 2 Chat 正確診斷了 603 人。在這 603 名患者中,Llama 2 Chat 在 97.5% 的情況下正確推薦了闌尾切除術(shù)。

3.LLM 仍需要大量的醫(yī)生臨床監(jiān)督

另外,當(dāng)前所有的 LLM 在遵循基礎(chǔ)醫(yī)學(xué)指導(dǎo)方面表現(xiàn)不佳,在每 2-4 個病例中出現(xiàn)錯誤,且每 2-5 個病例中就會虛構(gòu)不存在的指導(dǎo)。

圖片

圖|LLM 在不同數(shù)據(jù)量下的表現(xiàn)。該研究比較了每個模型在使用所有診斷信息與僅使用單一診斷檢查和現(xiàn)病史的表現(xiàn)。對于幾乎所有疾病,在 MIMIC-CDM-FI 數(shù)據(jù)集中,提供所有信息并未導(dǎo)致最佳表現(xiàn)。這表明,LLM 無法集中于關(guān)鍵事實,當(dāng)提供過多信息時,表現(xiàn)會下降。

該研究還表明,為每個模型提供最佳性能的信息順序?qū)τ诿糠N病理都是不同的,這無疑進一步增大了后續(xù)優(yōu)化模型的難度。在沒有廣泛的醫(yī)生監(jiān)督和事先評估的情況下,無法可靠地完成任務(wù)??偟膩碚f,它們在遵循指令、處理信息的順序以及對相關(guān)信息的處理上存在明細缺陷,因此需要大量臨床監(jiān)督以確保其正確運行。

雖然該研究發(fā)現(xiàn)了 LLM 在臨床診斷下的各種問題,但 LLM 在醫(yī)學(xué)方面的前景依然巨大,很可能更適合根據(jù)病史和測試結(jié)果做出診斷。研究團隊認為,該研究工作在以下兩個方面具有進一步拓展的空間

模型驗證和測試:進一步的研究應(yīng)集中在對 LLM 進行更全面的驗證和測試,以確保其在真實臨床環(huán)境中的有效性。

多學(xué)科合作:建議將 AI 專家與臨床醫(yī)生密切合作,以共同開發(fā)和優(yōu)化適用于臨床實踐的 LLM,并解決實際應(yīng)用中的問題。

AI 在如何顛覆醫(yī)療?

不只是上述研究,來自美國國立衛(wèi)生研究院(NIH)的團隊及其合作者,也發(fā)現(xiàn)了類似的問題——在回答 207 個圖像挑戰(zhàn)問題時,GPT-4V 雖然在選擇正確診斷方面得分很高,但在描述醫(yī)學(xué)圖像和解釋診斷背后的原因方面經(jīng)常會犯錯。

盡管 AI 目前還遠不如人類專業(yè)醫(yī)生,但其在醫(yī)療行業(yè)的研究與應(yīng)用,一直是國內(nèi)外科技公司和科研高校競相角逐的重要“戰(zhàn)場”。

例如,谷歌發(fā)布的醫(yī)療 AI 大模型 Med-PaLM2,具備了強大的診斷和治療能力,同時也是第一個在 MedQA 測試集中達到“專家”水平的大模型。

圖片

清華大學(xué)研究團隊提出的“智能體醫(yī)院”(Agent Hospital),可以模擬治療疾病的整個過程,其核心目標(biāo)是讓醫(yī)生智能體學(xué)會如何在模擬環(huán)境中治療疾病,甚至可以不斷從成功和失敗的病例中積累經(jīng)驗實現(xiàn)自我進化。

圖片

哈佛醫(yī)學(xué)院領(lǐng)銜開發(fā)了一個用于人類病理學(xué)的視覺語言通用 AI 助手——PathChat,其能夠在近 90% 的情況下從活檢切片中正確識別疾病,其表現(xiàn)優(yōu)于 GPT-4V 等目前市面上的通用 AI 模型和專業(yè)醫(yī)療模型。

圖片

圖|指令微調(diào)數(shù)據(jù)集和 PathChat 構(gòu)建

日前,OpenAI CEO Sam Altman 參與成立了一家新公司 Thrive AI Health,旨在借助 AI 技術(shù)幫助人們改善日常習(xí)慣,降低慢性病死亡率。

他們稱,超個性化的 AI 技術(shù)可以有效地改善人們的生活習(xí)慣,從而預(yù)防和管理慢性疾病,減輕醫(yī)療經(jīng)濟負擔(dān),并提高人們的整體健康水平。

如今,AI 在醫(yī)療行業(yè)的應(yīng)用已經(jīng)從最初的實驗階段逐漸過渡到實際應(yīng)用階段,但距離幫助臨床醫(yī)生增強他們的能力、改善臨床決策,甚至直接取代,或許依舊有很長的一段路要走。

評論
無為通達
學(xué)士級
AI在臨床決策方面仍需不斷改進和完善。?通過加強模型驗證和測試、?多學(xué)科合作、?強化臨床監(jiān)督以及理性看待AI技術(shù),?我們可以期待AI在未來能夠更好地服務(wù)于醫(yī)療行業(yè)并提升患者的健康水平。?
2024-08-09
沖沖
大學(xué)士級
AI不是萬能的,特別是在綜合各個方面做出決策的時候,在有模型的時候還好點,需要“創(chuàng)新”時它將一無是處!
2024-08-09
清風(fēng)徐來愛科普
庶吉士級
AI在臨床決策方面仍面臨諸多挑戰(zhàn),?但隨著技術(shù)的不斷進步和跨學(xué)科合作的深入,?我們有理由相信AI將在未來為醫(yī)療行業(yè)帶來更多創(chuàng)新和變革。?同時,?我們也需要保持審慎態(tài)度,?確保AI技術(shù)的安全、?可靠和有效應(yīng)用。?
2024-08-09