[論文筆記•(多智能體)]LLMs Can Simulate Standardized Patients via Agent Coevolution

一、一句話總結

該研究針對標準化病人(SPs)訓練醫療人員成本高、對 SP 身心健康有潛在負面影響的問題,提出EvoPatient 框架—— 一種基於多智能體協同進化的虛擬 SP 模擬方案,通過病人智能體醫生智能體的多輪對話模擬診斷流程(含主訴生成、分診、問診、結論階段),依託注意力庫軌跡庫實現無監督協同進化,在僅提供 SP 總體需求的情況下,經 200 個病例、10 小時進化後,需求對齊度較現有推理方法提升超 10%,同時優化資源消耗(平均響應時間 6.6922 秒、每答案 token 數 401.5882),還具備優異的泛化性(跨疾病遷移時相關指標平均提升 3.8%-18.1%),可有效用於人類醫生訓練,框架代碼將開源於https://github.com/ZJUMAI/EvoPatient。

二、論文基本信息

單位:浙江大學

會議:ACL2025 main

閲讀時間:2025.10.27

論文地址:LLMs Can Simulate Standardized Patients via Agent Coevolution - ACL Anthology

**代碼:**https://github.com/ZJUMAI/EvoPatient

測試

三、研究的核心問題和背景

  1. 標準化病人(SPs)的作用與侷限
  • 作用:作為經專業訓練的人員,模擬真實病人的症狀、病史和情緒狀態,在可控環境中提升醫療人員的臨牀技能、溝通能力和診斷推理能力(引用 Barrows, 1993 等研究)。
  • 侷限:① 訓練和運營成本極高,需大量醫學知識和角色專項練習(Levine et al., 2013);② 沉浸式工作可能對 SP 身心健康產生負面影響,如需應對角色相關焦慮(Spencer and Dales, 2006)。
  1. 現有虛擬 SP 方案的不足
  • 規則驅動數字病人:預定義規則和定製對話框架無法捕捉真實病人病情與溝通的複雜性(Othlinghaus-Wulhorst and Hoppe, 2020)。
  • LLM-based SP:① 需兼顧 “具備醫學知識” 與 “模擬無醫學認知病人(隱瞞關鍵信息)” 的雙重角色,僅靠提示工程難以滿足要求;② 現有研究(如 Yu et al., 2024 的知識圖譜檢索、Louie et al., 2024 的專家反饋)未克服 “將信息轉化為 SP 標準化表達” 問題,且存在人力密集、泛化性有限的問題。

四、現有方法面臨的挑戰

五、處理思路

EvoPatient 是無監督、無需權重更新的多智能體協同進化框架,核心目標是讓 LLM 模擬 SP 以支撐醫生訓練。

六、框架及具體達成

NeurlPS

NeurlPS

模擬流程(Simulated Flow)
  • 作用:以真實醫療記錄為輸入,將診斷過程建模為結構化階段,作為模擬工作流,支持場景定製且無需調整通信協議。
  • 關鍵階段:

階段

核心內容

主訴生成(Chief Complaint Generation)

病人智能體基於醫療記錄生成主訴,通過 “模糊化處理”(移除醫療檢測結果、隨機句子 dropout)模擬真實病人信息不精確性

分診(Triage)

醫生智能體根據相似主訴從庫中檢索歷史分診數據,將病人分配至對應專科

問診(Interrogation)

醫生與病人智能體多輪對話,若病情超當前醫生專業範圍,可招募其他專科醫生,此階段對話密度高、經驗積累多

結論(Conclusion)

醫生智能體整合信息給出最終診斷,結束模擬

  • 補充機制:問診階段加入 “病人危機”(如突發疼痛詢問),提升模擬真實性,訓練醫生應急處理能力。
模擬智能體對(Simulated Agent Pair)
  • 病人智能體(Simulated Patient Agent)
  • 畫像設計:構建5000 個涵蓋家庭、教育、經濟狀況及大五人格特質(McCrae and Costa, 1987)的病人畫像,提升回答真實性。
  • 技術支撐:採用檢索增強生成(RAG)技術(Lewis et al., 2020),從記錄中提取相關信息生成答案,避免長上下文信息丟失。
  • 醫生智能體(Simulated Doctor Agent)
  • 疑問生成優化:① 提供病人記錄和設計畫像,引導醫生構建專業疑問庫;② 幫助多學科諮詢招募,當病情超專業範圍時,可動態招募其他專科醫生,招募過程遵循拓撲排序形成有向無環圖(DAG),避免信息迴流。
  • 記憶機制:採用 “即時記憶 + 總結記憶”,前者維持近期對話連續性,後者整合關鍵信息,減輕上下文負擔(Liu et al., 2024),確保障礙非隨意生成。
協同進化機制(Coevolution)

通過兩個庫實現智能體自主進化,無需人工監督:

  • 注意力庫(Attention Library)
  • 功能:將 SP 需求拆分為多個分支,由注意力智能體提取關鍵需求形成 “注意力需求(rₐ)”,若生成答案優質,以 < 挑戰,記錄,答案,注意力需求 > 四元組存儲,作為病人智能體的少樣本演示和優化需求。
  • 檢索邏輯:新問題到來時,通過文本嵌入器計算相似度(閾值 0.9),檢索 Top-k 匹配結果輔助回答。
  • 軌跡庫(Trajectories Library)
  • 功能:存儲高質量對話軌跡(tᵢ),以(qⱼ₋₁,aⱼ₋₁,qⱼ,aⱼ)形式記錄問題 - 答案序列,醫生智能體可提取 “對話捷徑”,生成更專業高效的問題,反哺病人智能體進化。
  • 收斂條件:連續 6 個病例無新內容加入庫中,進化停止。

七、實驗

3.3.1 實驗基礎信息
  • 數據集:共20000 + 個不同病例,涵蓋闌尾炎、鼻咽癌、腫瘤等,來源包括:① 合作醫院的去標識化記錄(經倫理審批);② 公開數據集 MTSamples(2023)、MIMIC II(Saeed et al., 2011)。
  • 基線方法:Chain-of-Thought(CoT)、CoT-SC(3)、Tree-of-Thought(ToT)、Self-Align、Few-shot(2)、Online Library。
  • 模型與參數:中文數據用 Qwen 2.5 72B,英文數據用 GPT-3.5-Turbo,温度參數 1;默認訓練病例 200 個,最大對話輪次 10,每輪插入 5 個欺騙性問題。
  • 評估指標:

評估對象

指標名稱

指標定義

取值範圍

病人答案

相關性(α)

否直接完整回答障礙、無冗餘,用挑戰與答案語義嵌入的餘弦距離量化就是答案

[0,1]

病人答案

忠實性(β)

答案是否可從醫療信息推導且符合 SP 需求

[0,1]

病人答案

穩健性(γ)

答案是否泄露醫生不應輕易獲取的信息(如疾病名稱)

[0,1]

病人答案

綜合能力(Ability)

(α+β+γ)/3,衡量病人智能體整體表現

[0,1]

醫生問題

特異性

問題是否精準、聚焦病人病例的特定症狀 / 情況

-

醫生問題

針對性(ε)

問題是否為收集診斷必要信息而設計

[0,1]

醫生問題

專業性(ζ)

問題是否體現醫學原理與實踐理解

[0,1]

醫生問題

綜合質量(Quality)

整合特異性、針對性、專業性的整體指標

-

3.3.2 核心實驗結果

NeurlPS

  1. 總體性能對比:EvoPatient 在所有指標上顯著優於基線,具體信息如下表(部分關鍵指標):

方法

相關性(α)

忠實性(β)

穩健性(γ)

綜合能力(Ability)

CoT

0.7157†

0.5571†

0.6714†

0.6481†

ToT

0.7469†

0.7143†

0.7714†

0.7442†

Self-Align

0.7205†

0.7273†

0.8148†

0.7542†

Few-shot(2)

0.7252†

0.7419†

0.8207†

0.7626†

EvoPatient

0.7589

0.8786

0.9412

0.8597

注:†表示與 EvoPatient 存在顯著統計差異(p≤0.05)

  1. 資源消耗優化:EvoPatient 在響應時間、token 數、單詞數上均體現高效性,具體如下表:

方法

平均響應時間(秒)

每答案 token 數

每答案單詞數

CoT

4.7500

782.0571

45.7429

ToT

21.7040

2679.3428

38.9143

Few-shot(2)

4.7182

959.4355

35.6334

EvoPatient

6.6922

401.5882

32.2432

注:EvoPatient 較 CoT 減少 380.4689 個 token,減少 13.4997 個單詞

  1. 泛化性與遷移性:在鼻咽癌 100 個病例上訓練後,直接遷移到其他 5 種疾病,相關指標平均提升:
  • 相關性:3.8%
  • 忠實性:13.8%
  • 穩健性:18.1%
  • 綜合質量:12.0%
  1. 信息泄露緩解:進化前病人智能體易泄露疾病名稱等關鍵信息(如回答 “我的鼻咽癌復發”),進化後可有用識別並拒絕欺騙性問題,在人類和 GPT-4 評估中,偏好率顯著高於基線。
3.3.3 醫生智能體專項分析
  • 組件有效性:醫生智能體的 “進化機制”“問題庫”“畫像” 三大組件均對性能有正向貢獻,組合後綜合質量從 0.4010 提升至 0.5667,問診相關挑戰佔比從 14.09% 提升至 25.57%。
  • 招募策略影響:DAG 結構的招募策略優於樹狀、鏈式結構,平衡庫的積累速度與數量;多學科招募使難題多樣性提升,同時保證專業性,注意力庫積累率顯著提高。
    ,組合後綜合質量從 0.4010 提升至 0.5667,問診相關障礙佔比從 14.09% 提升至 25.57%。
  • 招募策略影響:DAG 結構的招募策略優於樹狀、鏈式結構,平衡庫的積累速度與數量;多學科招募使困難多樣性提升,同時保證專業性,注意力庫積累率顯著提高。