NeurlPS'21 | 多智能體強化學習論文整理（更新中） - 詳情 - 穩健性,泛化,基線,jQuery,前端開發 mob64ca140b0bc8 博客

[論文筆記•(多智能體)]LLMs Can Simulate Standardized Patients via Agent Coevolution

一、一句話總結

該研究針對標準化病人（SPs）訓練醫療人員成本高、對 SP 身心健康有潛在負面影響的問題，提出EvoPatient 框架—— 一種基於多智能體協同進化的虛擬 SP 模擬方案，通過病人智能體與醫生智能體的多輪對話模擬診斷流程（含主訴生成、分診、問診、結論階段），依託注意力庫和軌跡庫實現無監督協同進化，在僅提供 SP 總體需求的情況下，經 200 個病例、10 小時進化後，需求對齊度較現有推理方法提升超 10%，同時優化資源消耗（平均響應時間 6.6922 秒、每答案 token 數 401.5882），還具備優異的泛化性（跨疾病遷移時相關指標平均提升 3.8%-18.1%），可有效用於人類醫生訓練，框架代碼將開源於https://github.com/ZJUMAI/EvoPatient。

二、論文基本信息

單位：浙江大學

會議：ACL2025 main

閲讀時間：2025.10.27

論文地址：LLMs Can Simulate Standardized Patients via Agent Coevolution - ACL Anthology

**代碼：**https://github.com/ZJUMAI/EvoPatient

測試

三、研究的核心問題和背景

標準化病人（SPs）的作用與侷限

作用：作為經專業訓練的人員，模擬真實病人的症狀、病史和情緒狀態，在可控環境中提升醫療人員的臨牀技能、溝通能力和診斷推理能力（引用 Barrows, 1993 等研究）。
侷限：① 訓練和運營成本極高，需大量醫學知識和角色專項練習（Levine et al., 2013）；② 沉浸式工作可能對 SP 身心健康產生負面影響，如需應對角色相關焦慮（Spencer and Dales, 2006）。

現有虛擬 SP 方案的不足

規則驅動數字病人：預定義規則和定製對話框架無法捕捉真實病人病情與溝通的複雜性（Othlinghaus-Wulhorst and Hoppe, 2020）。
LLM-based SP：① 需兼顧 “具備醫學知識” 與 “模擬無醫學認知病人（隱瞞關鍵信息）” 的雙重角色，僅靠提示工程難以滿足要求；② 現有研究（如 Yu et al., 2024 的知識圖譜檢索、Louie et al., 2024 的專家反饋）未克服 “將信息轉化為 SP 標準化表達” 問題，且存在人力密集、泛化性有限的問題。

四、現有方法面臨的挑戰

五、處理思路

EvoPatient 是無監督、無需權重更新的多智能體協同進化框架，核心目標是讓 LLM 模擬 SP 以支撐醫生訓練。

六、框架及具體達成

NeurlPS

模擬流程（Simulated Flow）

作用：以真實醫療記錄為輸入，將診斷過程建模為結構化階段，作為模擬工作流，支持場景定製且無需調整通信協議。
關鍵階段：

階段	核心內容
主訴生成（Chief Complaint Generation）	病人智能體基於醫療記錄生成主訴，通過 “模糊化處理”（移除醫療檢測結果、隨機句子 dropout）模擬真實病人信息不精確性
分診（Triage）	醫生智能體根據相似主訴從庫中檢索歷史分診數據，將病人分配至對應專科
問診（Interrogation）	醫生與病人智能體多輪對話，若病情超當前醫生專業範圍，可招募其他專科醫生，此階段對話密度高、經驗積累多
結論（Conclusion）	醫生智能體整合信息給出最終診斷，結束模擬

補充機制：問診階段加入 “病人危機”（如突發疼痛詢問），提升模擬真實性，訓練醫生應急處理能力。

模擬智能體對（Simulated Agent Pair）

病人智能體（Simulated Patient Agent）

畫像設計：構建5000 個涵蓋家庭、教育、經濟狀況及大五人格特質（McCrae and Costa, 1987）的病人畫像，提升回答真實性。
技術支撐：採用檢索增強生成（RAG）技術（Lewis et al., 2020），從記錄中提取相關信息生成答案，避免長上下文信息丟失。

醫生智能體（Simulated Doctor Agent）

疑問生成優化：① 提供病人記錄和設計畫像，引導醫生構建專業疑問庫；② 幫助多學科諮詢招募，當病情超專業範圍時，可動態招募其他專科醫生，招募過程遵循拓撲排序形成有向無環圖（DAG），避免信息迴流。
記憶機制：採用 “即時記憶 + 總結記憶”，前者維持近期對話連續性，後者整合關鍵信息，減輕上下文負擔（Liu et al., 2024），確保障礙非隨意生成。

協同進化機制（Coevolution）

通過兩個庫實現智能體自主進化，無需人工監督：

注意力庫（Attention Library）

功能：將 SP 需求拆分為多個分支，由注意力智能體提取關鍵需求形成 “注意力需求（rₐ）”，若生成答案優質，以 < 挑戰，記錄，答案，注意力需求 > 四元組存儲，作為病人智能體的少樣本演示和優化需求。
檢索邏輯：新問題到來時，通過文本嵌入器計算相似度（閾值 0.9），檢索 Top-k 匹配結果輔助回答。

軌跡庫（Trajectories Library）

功能：存儲高質量對話軌跡（tᵢ），以（qⱼ₋₁,aⱼ₋₁,qⱼ,aⱼ）形式記錄問題 - 答案序列，醫生智能體可提取 “對話捷徑”，生成更專業高效的問題，反哺病人智能體進化。
收斂條件：連續 6 個病例無新內容加入庫中，進化停止。

七、實驗

3.3.1 實驗基礎信息

數據集：共20000 + 個不同病例，涵蓋闌尾炎、鼻咽癌、腫瘤等，來源包括：① 合作醫院的去標識化記錄（經倫理審批）；② 公開數據集 MTSamples（2023）、MIMIC II（Saeed et al., 2011）。
基線方法：Chain-of-Thought（CoT）、CoT-SC（3）、Tree-of-Thought（ToT）、Self-Align、Few-shot（2）、Online Library。
模型與參數：中文數據用 Qwen 2.5 72B，英文數據用 GPT-3.5-Turbo，温度參數 1；默認訓練病例 200 個，最大對話輪次 10，每輪插入 5 個欺騙性問題。
評估指標：

評估對象	指標名稱	指標定義	取值範圍
病人答案	相關性（α）	否直接完整回答障礙、無冗餘，用挑戰與答案語義嵌入的餘弦距離量化就是答案	[0,1]
病人答案	忠實性（β）	答案是否可從醫療信息推導且符合 SP 需求	[0,1]
病人答案	穩健性（γ）	答案是否泄露醫生不應輕易獲取的信息（如疾病名稱）	[0,1]
病人答案	綜合能力（Ability）	（α+β+γ）/3，衡量病人智能體整體表現	[0,1]
醫生問題	特異性	問題是否精準、聚焦病人病例的特定症狀 / 情況	-
醫生問題	針對性（ε）	問題是否為收集診斷必要信息而設計	[0,1]
醫生問題	專業性（ζ）	問題是否體現醫學原理與實踐理解	[0,1]
醫生問題	綜合質量（Quality）	整合特異性、針對性、專業性的整體指標	-

3.3.2 核心實驗結果

NeurlPS

總體性能對比：EvoPatient 在所有指標上顯著優於基線，具體信息如下表（部分關鍵指標）：

方法	相關性（α）	忠實性（β）	穩健性（γ）	綜合能力（Ability）
CoT	0.7157†	0.5571†	0.6714†	0.6481†
ToT	0.7469†	0.7143†	0.7714†	0.7442†
Self-Align	0.7205†	0.7273†	0.8148†	0.7542†
Few-shot（2）	0.7252†	0.7419†	0.8207†	0.7626†
EvoPatient	0.7589	0.8786	0.9412	0.8597
注：†表示與 EvoPatient 存在顯著統計差異（p≤0.05）

資源消耗優化：EvoPatient 在響應時間、token 數、單詞數上均體現高效性，具體如下表：

方法	平均響應時間（秒）	每答案 token 數	每答案單詞數
CoT	4.7500	782.0571	45.7429
ToT	21.7040	2679.3428	38.9143
Few-shot（2）	4.7182	959.4355	35.6334
EvoPatient	6.6922	401.5882	32.2432
注：EvoPatient 較 CoT 減少 380.4689 個 token，減少 13.4997 個單詞

泛化性與遷移性：在鼻咽癌 100 個病例上訓練後，直接遷移到其他 5 種疾病，相關指標平均提升：

相關性：3.8%
忠實性：13.8%
穩健性：18.1%
綜合質量：12.0%

信息泄露緩解：進化前病人智能體易泄露疾病名稱等關鍵信息（如回答 “我的鼻咽癌復發”），進化後可有用識別並拒絕欺騙性問題，在人類和 GPT-4 評估中，偏好率顯著高於基線。

3.3.3 醫生智能體專項分析

組件有效性：醫生智能體的 “進化機制”“問題庫”“畫像” 三大組件均對性能有正向貢獻，組合後綜合質量從 0.4010 提升至 0.5667，問診相關挑戰佔比從 14.09% 提升至 25.57%。
招募策略影響：DAG 結構的招募策略優於樹狀、鏈式結構，平衡庫的積累速度與數量；多學科招募使難題多樣性提升，同時保證專業性，注意力庫積累率顯著提高。
，組合後綜合質量從 0.4010 提升至 0.5667，問診相關障礙佔比從 14.09% 提升至 25.57%。
招募策略影響：DAG 結構的招募策略優於樹狀、鏈式結構，平衡庫的積累速度與數量；多學科招募使困難多樣性提升，同時保證專業性，注意力庫積累率顯著提高。

本文章為轉載內容，我們尊重原作者對文章享有的著作權。如有內容錯誤或侵權問題，歡迎原作者聯繫我們進行內容更正或刪除文章。

mob64ca140b0bc8 博客

mob64ca140b0bc8 博客

博客 / 詳情