AI Insight Hub - 最新人工智能动态

arXiv:2607.01470v1 公告类型：新摘要：临床方案执行任务（检查实验室值、应用阈值、放置正确结构的 FHIR 订单）是来自世界反馈的 RL 的自然候选者：一旦临床 SME 将决策逻辑编码到验证器中，该验证器就会对无限的推出进行评分，而无需每集注释。但应用强化学习需要良好的反馈渠道和足够的基础能力。我们审核 MedAgentBench v1/v2，找到 41.7% 的静默完成上限，使不作为成为 RL 主导策略，并构建 \textbf{MedAgentBench-v3 (MAB-v3)} （508 个任务，8.9% 上限）。训练 Qwen3-8B 暴露了两个结构性障碍：\emph{能力上限}（10/20 任务类型具有 0\% 基本性能，零梯度）和 \emph{格式知识障碍}（3/20 类型需要通过探索无法发现的精确临床代码）。纯 RL 达到 18.2% pass@1，而基于规则的 SFT 达到 34.1%； 15.9~pp 的差距完全归因于这些障碍。决策/格式知识/查找分类法可以预测 RL 的可学习性并规定修复方案：SFT 注入代码，RL 学习条件。

临床代理的全球反馈：在 FHIR 环境中诊断 RL

相关文章推荐

AI 代理解释：什么是 ReAct 循环及其工作原理？

长上下文与短上下文模型：长上下文模型何时获胜？

谷歌 DeepMind 和 A24 宣布建立首个研究合作伙伴关系