版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

模擬醫(yī)生會(huì)診,四川大學(xué)華西醫(yī)院團(tuán)隊(duì)開發(fā)多智能體對(duì)話框架助力疾病診斷

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

罕見病患病率低,相關(guān)專業(yè)知識(shí)匱乏,加之病癥個(gè)體復(fù)雜多變,誤診和延遲診斷等現(xiàn)象頻繁出現(xiàn)。近年來,GPT-4 等大語言模型 (LLMs) 在醫(yī)學(xué)問答和常見病診斷方面表現(xiàn)優(yōu)異,但在罕見病等復(fù)雜臨床任務(wù)中仍面臨挑戰(zhàn)。為提升 LLMs 在醫(yī)學(xué)領(lǐng)域的實(shí)際應(yīng)用能力,一些研究人員開始探索多智能體系統(tǒng) (Multi-Agent Systems , MAS) 的應(yīng)用。

所謂智能體,是指為了完成某個(gè)目標(biāo),能夠接收輸入并執(zhí)行特定操作的系統(tǒng)。例如,我們與 ChatGPT 交流病情時(shí),實(shí)際上是在與單一智能體對(duì)話。相較之下,多智能體系統(tǒng)通過多智能體對(duì)話 (MAC) 實(shí)現(xiàn)更動(dòng)態(tài)、交互式的診斷,該模式模擬了臨床實(shí)踐中的多學(xué)科團(tuán)隊(duì) (MDT) 討論機(jī)制,讓多個(gè)智能體圍繞同一病例展開討論并分析,達(dá)成共識(shí)后輸出病情診斷結(jié)果。

近日,四川大學(xué)華西醫(yī)院、華西生物醫(yī)學(xué)大數(shù)據(jù)中心、浙江大學(xué)醫(yī)學(xué)院、北京郵電大學(xué)等團(tuán)隊(duì),分別基于 GPT-3.5 和 GPT-4,開發(fā)了多智能體對(duì)話 (MAC) 框架。該框架由 Admin Agent、Supervisor Agent 和多個(gè) Doctor Agent 組成,共同參與患者病情分析。MAC 的最佳配置是采用 GPT-4 作為基礎(chǔ)模型,并由 4 名 Doctor Agent 和 1 名 Supervisor Agent 組成。

評(píng)估 GPT-3.5、GPT-4、MAC 在 302 例罕見病的臨床推理與醫(yī)學(xué)知識(shí)生成中的表現(xiàn)可得,MAC 在初診和復(fù)診階段均優(yōu)于單一智能體模型。此外,MAC 的診斷能力超越思維鏈 (CoT) 提示、自我優(yōu)化 (Self-Refine) 和自我一致性 (Self-Consistency) 等方法,能輸出更豐富的診斷內(nèi)容。例如,GPT-3.5 和 GPT-4 能基于臨床表現(xiàn)識(shí)別心包炎和癲癇,但 MAC 通過聯(lián)合對(duì)話進(jìn)行更深入的分析,能夠確定特定病例的心包炎是由 Bardet-Biedl 綜合征引起的。

總而言之,MAC 顯著提升了 LLMs 的診斷能力,彌合了理論知識(shí)與臨床實(shí)踐之間的鴻溝,有望成為醫(yī)生的重要輔助工具。該研究以「Enhancing diagnostic capability with multi-agents conversational large language models」為題,發(fā)表于 Nature 旗下期刊 npj digital medicine。



數(shù)據(jù)集:篩選 302 種罕見疾病

本研究從 Orphanet 數(shù)據(jù)庫中篩選出 302 種罕見疾病作為研究對(duì)象。Orphanet 數(shù)據(jù)庫是由歐盟委員會(huì)共同資助的綜合性罕見疾病數(shù)據(jù)庫,涵蓋 33 種類型的超 7,000 種疾病。

在確定目標(biāo)疾病后,研究團(tuán)隊(duì)檢索了 Medline 數(shù)據(jù)庫中 2022 年 1 月之后發(fā)表的臨床病例報(bào)告。通過對(duì)這些病例報(bào)告進(jìn)行結(jié)構(gòu)化數(shù)據(jù)提取,詳細(xì)收集了患者人口統(tǒng)計(jì)學(xué)特征、臨床表現(xiàn)、病史、體格檢查結(jié)果以及各類輔助檢查結(jié)果(包括基因檢測、病理活檢和放射學(xué)檢查等),并記錄了最終診斷信息。

為全面評(píng)估大型語言模型 (LLM) 在臨床環(huán)境中的應(yīng)用價(jià)值,研究團(tuán)隊(duì)設(shè)計(jì)了兩階段的臨床咨詢模擬實(shí)驗(yàn),每個(gè)病例都被安排到初級(jí)咨詢和后續(xù)咨詢環(huán)境中測試:

第一階段模擬初步咨詢場景(初診),主要考察 LLM 在患者初次就診、僅具備有限臨床信息情況下的表現(xiàn)。LLMs 的任務(wù)是得出一個(gè)最有可能的診斷、幾個(gè)可能的診斷以及進(jìn)一步的診斷。

第二階段模擬后續(xù)隨訪咨詢場景(復(fù)診),評(píng)估 LLM 在獲得完整患者信息(包括各項(xiàng)檢查結(jié)果)后的診斷能力。LLMs 的任務(wù)是得出 1 個(gè)最有可能的診斷和幾個(gè)可能的診斷。

這種分階段的研究設(shè)計(jì)不僅能夠測試 LLM 在信息不完整情況下的初步判斷能力,還能系統(tǒng)評(píng)估其在全面掌握臨床數(shù)據(jù)后的醫(yī)學(xué)推理和最終診斷準(zhǔn)確性,從而全面反映 LLM 在臨床決策支持中的實(shí)際應(yīng)用潛力。



基于 GPT-4、有 4 個(gè) Doctor Agents 的 MAC 框架表現(xiàn)最優(yōu)

研究團(tuán)隊(duì)利用 Autogen 提供的結(jié)構(gòu),分別基于 GPT-3.5-turbo 和 GPT-4 開發(fā)了 2 個(gè)多智能體對(duì)話框架 (Multi-Agent Conversation Framework, MAC),模擬醫(yī)生會(huì)診。如下圖所示,其中 Admin Agent 提供患者信息,Supervisor Agent 負(fù)責(zé)發(fā)起并監(jiān)督聯(lián)合對(duì)話,3 名 Doctor Agents 共同討論患者病情。對(duì)話將持續(xù)進(jìn)行,直至 Agent 間達(dá)成一致意見或達(dá)到預(yù)設(shè)的最大對(duì)話輪次(本研究設(shè)定為 13 輪),輸出最終診斷結(jié)果。

Supervisor Agent 扮演著質(zhì)量控制和流程優(yōu)化的角色,其職責(zé)涵蓋:(1)監(jiān)督和評(píng)估 Doctor Agents 提出的建議與決策;(2)審查診斷方案和擬議檢查項(xiàng)目,識(shí)別可能遺漏的關(guān)鍵點(diǎn);(3)協(xié)調(diào) Doctor Agents 間的討論,促進(jìn)診斷方案的完善;(4)推動(dòng) Doctor Agents 就最終診斷和檢查方案達(dá)成共識(shí);(5)在達(dá)成共識(shí)后及時(shí)終止對(duì)話流程。

Doctor Agents 的職責(zé)包括:(1)基于專業(yè)醫(yī)學(xué)知識(shí)提供診斷推理和臨床建議;(2)系統(tǒng)評(píng)估和評(píng)議其他 Agent 的意見,并提出科學(xué)合理的論點(diǎn)和依據(jù);(3)整合并優(yōu)化其他 Agent 的反饋意見,持續(xù)改進(jìn)診斷輸出。

使用來自 Medline 數(shù)據(jù)庫的真實(shí)臨床病例報(bào)告,研究人員評(píng)估了 GPT-3.5、GPT-4 和 MAC 對(duì) 302 種罕見疾病的知識(shí)和診斷能力。此外,其還研究了不同設(shè)置對(duì) MAC 性能的影響。

例如,研究團(tuán)隊(duì)比較了 MAC 框架分別采用 GPT-4 和 GPT-3.5 作為基礎(chǔ)模型時(shí)的性能差異。結(jié)果發(fā)現(xiàn),使用 GPT-3.5 或 GPT-4 作為基礎(chǔ)模型的 MAC 表現(xiàn)明顯優(yōu)于其各自的獨(dú)立版本,換言之,與單智能體模型相比,MAC 的診斷能力大大增強(qiáng)。此外,當(dāng)用作 MAC 的基礎(chǔ)模型時(shí),GPT-4 被證明優(yōu)于 GPT-3.5,這意味著,更強(qiáng)大的基礎(chǔ)模型可能會(huì)帶來更好的整體性能。

此外,研究人員還研究了 Doctor Agents 數(shù)量對(duì)多智能體框架性能的影響,以 GPT-4 為基礎(chǔ)模型的實(shí)驗(yàn)結(jié)果顯示,在最可能診斷準(zhǔn)確率方面,4 個(gè) Agent 時(shí)達(dá)到峰值 34.11%,而 5 個(gè) Agent 則略微下降至 31.79%。在可能診斷的準(zhǔn)確性方面也觀察到相似規(guī)律,2、3、4、5 個(gè) Agent 的準(zhǔn)確率分別為 51.99%、53.31%、53.86% 和 50.99%。在以 GPT-3.5 為基礎(chǔ)模型的實(shí)驗(yàn)中,4 個(gè) Doctor Agents 同樣展現(xiàn)出最佳性能表現(xiàn)。不過整體而言,其中 3 個(gè) Agent 產(chǎn)生的性能與 4 個(gè) Agent 時(shí)差距不大。

進(jìn)一步地,在模擬 4 名 Doctor Agents 參與的初步咨詢場景中,基于 GPT-4 的 MAC 框架在多項(xiàng)關(guān)鍵指標(biāo)上均取得了更優(yōu)異的表現(xiàn):在最可能診斷的準(zhǔn)確性方面達(dá)到 34.11%(GPT-3.5 為 24.28%),在可能診斷的準(zhǔn)確性達(dá)到 48.12%(GPT-3.5 為 36.64%),在進(jìn)一步診斷測試的幫助度方面達(dá)到 78.26%(GPT-3.5 為 77.37%)。在隨訪咨詢中的診斷表現(xiàn), 具有 4 名 Doctor Agents 參與、基于 GPT-4 的 MAC 框架也表現(xiàn)最優(yōu)。

研究人員還評(píng)估了移除 Supervisor Agent 對(duì) MAC 整體性能的潛在影響。結(jié)果發(fā)現(xiàn),移除 Supervisor Agent 時(shí),在模擬 4 名 Doctor Agents 參與的初步咨詢場景中,基于 GPT-4 的 MAC 框架在最有可能的診斷準(zhǔn)確性、可能的診斷準(zhǔn)確率、進(jìn)一步診斷測試的幫助性方面的數(shù)據(jù)分別為 32.67%、45.47%、78.04%,均比不移除時(shí)低。在隨訪咨詢場景中,移除 Supervisor Agent 的 MAC 框架在最有可能的診斷準(zhǔn)確性、可能的診斷準(zhǔn)確率也均比不移除時(shí)低。這說明,Supervisor Agent 提高了框架的有效性。



實(shí)驗(yàn)結(jié)論:MAC 可直擊疾病根本原因,診斷能力更強(qiáng)

研究團(tuán)隊(duì)評(píng)估了 GPT-3.5、GPT-4 和 MAC 框架在罕見病知識(shí)生成方面的表現(xiàn),包括疾病定義、流行病學(xué)、臨床特征、病因、診斷方法、鑒別診斷、產(chǎn)前診斷、遺傳咨詢、治療管理及預(yù)后等內(nèi)容。結(jié)果表明,如下圖所示,這些模型在所有評(píng)估維度上表現(xiàn)良好,各項(xiàng)指標(biāo)得分均超過 4 分。此外,它們?cè)趦?nèi)容準(zhǔn)確性(不適當(dāng)/不正確的內(nèi)容)、信息完整性(遺漏)、安全性(可能傷害的可能性及程度)以及客觀性(偏倚)等方面均展現(xiàn)了較高的水平。

在特定案例的病癥診斷中,如下圖所示,研究人員發(fā)現(xiàn) GPT-3.5 和 GPT-4 能夠基于明顯癥狀診斷疾病,例如通過臨床表現(xiàn)識(shí)別心包炎和癲癇,然而,它們?cè)谔骄考膊〉母驹蚍矫娲嬖诓蛔恪?strong>相比之下,MAC 框架通過聯(lián)合對(duì)話進(jìn)行更深入的分析,可以確定特定病例的心包炎是由 Bardet-Biedl 綜合征引起的。

研究人員將 MAC 與輸入/輸出 (I/O) 提示、思維鏈提示 (CoT)、自我優(yōu)化和自我一致性方法進(jìn)行了比較。如下圖所示,在初次和后續(xù)咨詢中,MAC 在最可能的診斷、可能的診斷及進(jìn)一步診斷測試的有效性方面均表現(xiàn)最佳。

此外,MAC 輸出的 tokens 也更多,增加的輸出不僅有助于探索不同的推理路徑,還使反思與修正先前輸出成為可能,這可以增加分析深度,提升識(shí)別被忽視疾病根本原因的能力。然而,研究亦表明,盡管增加 LLM 調(diào)用的數(shù)量并由此生成更多 tokens 可以提升 MAC 性能,但這種改進(jìn)幅度受到任務(wù)類型及所采用細(xì)化方法的限制。

綜上所述,本研究成功開發(fā)了一種用于疾病診斷的多智能體對(duì)話框架 (MAC),該框架可在臨床咨詢的不同階段提供有價(jià)值的診斷建議并推薦進(jìn)一步的診斷,適用于所有類型的罕見病。此外,相較于現(xiàn)有的思維鏈 (CoT)、自我優(yōu)化和自我一致性等方法,MAC 不僅具備更高的診斷準(zhǔn)確性,還能生成更豐富、全面的診斷內(nèi)容,該框架顯著提升了大語言模型的臨床診斷能力。

多智能體系統(tǒng)在醫(yī)療領(lǐng)域具備極大的應(yīng)用潛力

近年來,多智能體系統(tǒng)在醫(yī)療決策與診斷領(lǐng)域展現(xiàn)出喜人的進(jìn)展,多個(gè)重要框架相繼出現(xiàn),并采用不同策略來利用大語言模型執(zhí)行臨床任務(wù)。例如,上海交通大學(xué)提出針對(duì)醫(yī)學(xué)領(lǐng)域的多學(xué)科協(xié)作框架 MedAgents,該框架讓基于 LLM 的智能體在角色扮演環(huán)境中進(jìn)行多輪協(xié)作討論,顯著增強(qiáng)了 LLM 在零樣本醫(yī)療問答中的表現(xiàn)。研究以「MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning」為題,發(fā)表在 arXiv 上。

論文地址:

https://arxiv.org/abs/2311.10537

不同于 MedAgents 等聚焦于醫(yī)療問答,MAC 框架專注于診斷任務(wù),促使多個(gè)智能體在相同的臨床背景下進(jìn)行分析、互動(dòng)討論,并提供開放式診斷建議。在智能體的架構(gòu)設(shè)計(jì)上,MAC 包含多個(gè) Doctor Agents 和一個(gè) Supervisor Agent,而其他框架則采用不同設(shè)定,例如為問題和答案分別創(chuàng)建單獨(dú)的 Agent。在共識(shí)達(dá)成方式上,各框架亦有所不同。例如,MedAgents 通過迭代修訂不斷優(yōu)化答案,直至所有專家達(dá)成一致,而 MAC 由 Supervisor Agent 判斷 Doctor Agents 何時(shí)達(dá)到足夠的共識(shí)。

盡管這些多智能體系統(tǒng)在配置與目標(biāo)上各具特色,但它們?cè)卺t(yī)療領(lǐng)域的應(yīng)用潛力巨大,未來仍需深入研究,以全面探索并優(yōu)化其在臨床環(huán)境中的實(shí)際作用。

上文所述多智能體對(duì)話框架的研究團(tuán)隊(duì)專注于生成式人工智能與臨床醫(yī)學(xué)交叉領(lǐng)域的前沿探索,擁有豐富的臨床數(shù)據(jù)資源與先進(jìn)的計(jì)算硬件設(shè)施,相關(guān)研究成果已在國際高水平學(xué)術(shù)期刊發(fā)表。

該團(tuán)隊(duì)致力于將人工智能技術(shù)落地應(yīng)用,切實(shí)變革臨床醫(yī)療診療模式與生態(tài)系統(tǒng),誠摯邀請(qǐng)學(xué)術(shù)機(jī)構(gòu)及企業(yè)開展項(xiàng)目合作,歡迎有志于此領(lǐng)域的優(yōu)秀研究生報(bào)考,同時(shí)招聘富有激情的科研助理加入團(tuán)隊(duì)。有意向者可聯(lián)系 geteff@wchscun.cn.