AI Insight Hub - 最新人工智能动态

arXiv:2510.06261v1 公告类型：新摘要：我们提出了 AlphaApollo，一种自我进化的代理推理系统，旨在解决基础模型（FM）推理中的两个瓶颈——有限的模型内在能力和不可靠的测试时间迭代。 AlphaApollo 使用专业工具协调多个模型，以实现深思熟虑、可验证的推理。它将 (i) 计算工具（带有数字和符号库的 Python）和 (ii) 检索工具（与任务相关的外部信息）结合起来，以执行精确的计算和基本决策。该系统通过记录候选、可执行检查和迭代细化反馈的共享状态图进一步支持多轮、多模型解决方案演进。在跨多个模型的 AIME 2024/2025 评估中，AlphaApollo 提供了一致的增益：Qwen2.5-14B-Instruct 的 +5.15% Average@32 和 +23.34% Pass@32，以及 Llama-3.3-70B-Instruct 的 +8.91% Average@32 和 +26.67% Pass@32。工具使用分析表明，超过 80% 的工具调用成功执行，并且始终优于非工具基线，从而提高了 FM 的能力上限。更多实证结果和实施细节将在 https://github.com/tmlr-group/AlphaApollo 更新。

AlphaApollo：将基础模型和专业工具编排成用于深度代理推理的自我进化系统

相关文章推荐

如何充分利用《克劳德寓言 5》

为什么你的贝塔值爆炸：多重共线性的隐藏几何

我们的生物弹性方法