来源:ArXiv AI 2026-07-03 04:00

临床代理的全球反馈:在 FHIR 环境中诊断 RL

RL 临床 反馈 类型 任务
arXiv:2607.01470v1 公告类型:新 摘要:临床方案执行任务(检查实验室值、应用阈值、放置正确结构的 FHIR 订单)是来自世界反馈的 RL 的自然候选者:一旦临床 SME 将决策逻辑编码到验证器中,该验证器就会对无限的推出进行评分,而无需每集注释。但应用强化学习需要良好的反馈渠道和足够的基础能力。我们审核 Med​​AgentBench v1/v2,找到 41.7% 的静默完成上限,使不作为成为 RL 主导策略,并构建 \textbf{MedAgentBench-v3 (MAB-v3)} (508 个任务,8.9% 上限)。训练 Qwen3-8B 暴露了两个结构性障碍:\emph{能力上限}(10/20 任务类型具有 0\% 基本性能,零梯度)和 \emph{格式知识障碍}(3/20 类型需要通过探索无法发现的精确临床代码)。纯 RL 达到 18.2% pass@1,而基于规则的 SFT 达到 34.1%; 15.9~pp 的差距完全归因于这些障碍。决策/格式知识/查找分类法可以预测 RL 的可学习性并规定修复方案:SFT 注入代码,RL 学习条件。

相关文章推荐

返回首页