AI Insight Hub - 最新人工智能动态

arXiv:2606.10241v1 公告类型：新摘要：自主改进循环很难信任，因为改进过程通常是固定在代理上的外部脚手架：故障不会被记录，诊断无法重播，升级或放弃决策会存储在辅助数据库中，而不是代理自己的历史记录中。我们证明，事件源代理运行时消除了这种摩擦，并将受控改进转变为一流的工作流程。当代理的状态是仅附加事件日志的确定性投影时，会记录故障，运行会从其日志中准确重放，候选补丁范围会扩展到类型化的管道接缝，门是可审计的，并且每次升级或丢弃本身就是一个事件。我们通过 Regimes 演示了这一点，Regimes 是 ActiveGraph 运行时上的一个循环，用于诊断失败的评估，在管道点提出修复，并仅在静态检查、沙箱执行、样本内评估和保留验证之后才进行升级。该循环与目标无关：相同的控制流通过公共接口针对不同的任务运行。在 LongMemEval-S 上，主要的失败不是检索而是调和：证据已经在组装的上下文中，但读者回答错误。在五个种子保留分赛中，Regimes 发现读者提示修复可以将最终保留准确度在四个分赛中提高 +0.05 至 +0.10，在一个超额晋级分赛中提高 +0.01；两个分割分别具有重要意义（种子 5 未针对其顺序升级结构进行调整），并且合并计数仅具有描述性，因为分割共享一个 500 个问题池。持久的贡献是 ActiveGraph 作为可审计的基础，使受控改进循环变得易于处理，它支持的保留门控循环，将每个故障路由到管道位置的故障机制分类法（其在未路由基线上的边际值是主要的开放问题），以及提示即发现探测假设。

制度：使用 ActiveGraph 在 LongMemEval 上演示的可审计、保留的改进循环

相关文章推荐

通过 OLMo 3 的培训追踪评估意识的出现

利用综合基本原理数据进行监督微调会损害现实世界的疾病预测

RealMath-Eval：为什么 SOTA 评委在真实的人类推理方面遇到困难