AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-06-10 04:00
翻译成中文
制度:使用 ActiveGraph 在 LongMemEval 上演示的可审计、保留的改进循环
循环
保留
改进
代理
故障
arXiv:2606.10241v1 公告类型:新 摘要:自主改进循环很难信任,因为改进过程通常是固定在代理上的外部脚手架:故障不会被记录,诊断无法重播,升级或放弃决策会存储在辅助数据库中,而不是代理自己的历史记录中。我们证明,事件源代理运行时消除了这种摩擦,并将受控改进转变为一流的工作流程。当代理的状态是仅附加事件日志的确定性投影时,会记录故障,运行会从其日志中准确重放,候选补丁范围会扩展到类型化的管道接缝,门是可审计的,并且每次升级或丢弃本身就是一个事件。我们通过 Regimes 演示了这一点,Regimes 是 ActiveGraph 运行时上的一个循环,用于诊断失败的评估,在管道点提出修复,并仅在静态检查、沙箱执行、样本内评估和保留验证之后才进行升级。该循环与目标无关:相同的控制流通过公共接口针对不同的任务运行。在 LongMemEval-S 上,主要的失败不是检索而是调和:证据已经在组装的上下文中,但读者回答错误。在五个种子保留分赛中,Regimes 发现读者提示修复可以将最终保留准确度在四个分赛中提高 +0.05 至 +0.10,在一个超额晋级分赛中提高 +0.01;两个分割分别具有重要意义(种子 5 未针对其顺序升级结构进行调整),并且合并计数仅具有描述性,因为分割共享一个 500 个问题池。持久的贡献是 ActiveGraph 作为可审计的基础,使受控改进循环变得易于处理,它支持的保留门控循环,将每个故障路由到管道位置的故障机制分类法(其在未路由基线上的边际值是主要的开放问题),以及提示即发现探测假设。
查看原始链接
相关文章推荐
通过 OLMo 3 的培训追踪评估意识的出现
2026-06-10
利用综合基本原理数据进行监督微调会损害现实世界的疾病预测
2026-06-10
RealMath-Eval:为什么 SOTA 评委在真实的人类推理方面遇到困难
2026-06-10
返回首页