AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-07-03 04:00
翻译成中文
临床代理的全球反馈:在 FHIR 环境中诊断 RL
RL
临床
反馈
类型
任务
arXiv:2607.01470v1 公告类型:新 摘要:临床方案执行任务(检查实验室值、应用阈值、放置正确结构的 FHIR 订单)是来自世界反馈的 RL 的自然候选者:一旦临床 SME 将决策逻辑编码到验证器中,该验证器就会对无限的推出进行评分,而无需每集注释。但应用强化学习需要良好的反馈渠道和足够的基础能力。我们审核 MedAgentBench v1/v2,找到 41.7% 的静默完成上限,使不作为成为 RL 主导策略,并构建 \textbf{MedAgentBench-v3 (MAB-v3)} (508 个任务,8.9% 上限)。训练 Qwen3-8B 暴露了两个结构性障碍:\emph{能力上限}(10/20 任务类型具有 0\% 基本性能,零梯度)和 \emph{格式知识障碍}(3/20 类型需要通过探索无法发现的精确临床代码)。纯 RL 达到 18.2% pass@1,而基于规则的 SFT 达到 34.1%; 15.9~pp 的差距完全归因于这些障碍。决策/格式知识/查找分类法可以预测 RL 的可学习性并规定修复方案:SFT 注入代码,RL 学习条件。
查看原始链接
相关文章推荐
AI 代理解释:什么是 ReAct 循环及其工作原理?
2026-07-03
长上下文与短上下文模型:长上下文模型何时获胜?
2026-07-03
谷歌 DeepMind 和 A24 宣布建立首个研究合作伙伴关系
2026-07-03
返回首页