AI Insight Hub - 最新人工智能动态

arXiv:2607.01465v1 公告类型：新摘要：大型语言模型经过训练来预测下一个标记，而不是在特定的 API 内执行操作。在利基企业 SaaS 工作流程中，成功意味着以正确的顺序使用正确的嵌套参数命中正确的端点，这种目标不匹配表现为无声的失败：删除所需字段、幻觉工具或在单次读取后提前停止。我们询问直接应用于目标环境的强化学习与可验证奖励（RLVR）是否可以缩小差距。作为概念验证，我们构建了一套包含五个合成环境的套件，以模式保真度模拟 Jira REST v3 和 Confluence v2 API；奖励完全根据工具调用跟踪计算，没有实时 API，没有学习判断，循环中没有人工标签。评分促使 Qwen3-1.7B 和 Qwen3.5-4B 在驱动 GRPO 训练的相同检查器上进行，我们发现，在奖励非退化的四种场景中，RL 训练的策略将平均奖励从 4B 基线范围 0.35--0.92 提升到 0.95--1.00，在 Confluence 页面创建方面获得最大的单一收益（$0.35 \rightarrow） 1.00 美元）。我们将其定位为利基企业 API 的结果优化小型模型的初步步骤，并强调了研讨会读者应该权衡的两个限制：手工制作可验证的奖励不会超出此处报告的少数端点，并且我们的五个场景之一（票证转换）具有饱和奖励形状，提示 4B 已经达到最大值。

超越下一个令牌预测：Atlassian 工作流上工具使用代理的 RLVR 概念证明

相关文章推荐

AI 代理解释：什么是 ReAct 循环及其工作原理？

长上下文与短上下文模型：长上下文模型何时获胜？

谷歌 DeepMind 和 A24 宣布建立首个研究合作伙伴关系