AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-07-03 04:00
翻译成中文
超越下一个令牌预测:Atlassian 工作流上工具使用代理的 RLVR 概念证明
奖励
API
工具
正确
预测
arXiv:2607.01465v1 公告类型:新 摘要:大型语言模型经过训练来预测下一个标记,而不是在特定的 API 内执行操作。在利基企业 SaaS 工作流程中,成功意味着以正确的顺序使用正确的嵌套参数命中正确的端点,这种目标不匹配表现为无声的失败:删除所需字段、幻觉工具或在单次读取后提前停止。我们询问直接应用于目标环境的强化学习与可验证奖励(RLVR)是否可以缩小差距。作为概念验证,我们构建了一套包含五个合成环境的套件,以模式保真度模拟 Jira REST v3 和 Confluence v2 API;奖励完全根据工具调用跟踪计算,没有实时 API,没有学习判断,循环中没有人工标签。评分促使 Qwen3-1.7B 和 Qwen3.5-4B 在驱动 GRPO 训练的相同检查器上进行,我们发现,在奖励非退化的四种场景中,RL 训练的策略将平均奖励从 4B 基线范围 0.35--0.92 提升到 0.95--1.00,在 Confluence 页面创建方面获得最大的单一收益($0.35 \rightarrow) 1.00 美元)。我们将其定位为利基企业 API 的结果优化小型模型的初步步骤,并强调了研讨会读者应该权衡的两个限制:手工制作可验证的奖励不会超出此处报告的少数端点,并且我们的五个场景之一(票证转换)具有饱和奖励形状,提示 4B 已经达到最大值。
查看原始链接
相关文章推荐
AI 代理解释:什么是 ReAct 循环及其工作原理?
2026-07-03
长上下文与短上下文模型:长上下文模型何时获胜?
2026-07-03
谷歌 DeepMind 和 A24 宣布建立首个研究合作伙伴关系
2026-07-03
返回首页