来源:ArXiv AI 2026-05-11 04:00

批判何时会改善人工智能辅助的理论物理? SCALAR:结构化批评家--用于代理推理的角色循环

反馈 批评家 演员 人工智能 代理
arXiv:2605.06772v1 公告类型:新 摘要:随着大型语言模型(LLM)在研究级物理推理任务中显示出越来越大的前景,并且代理人工智能变得越来越普遍,一个实际问题出现了:研究人员和代理之间的交互如何影响结果?我们使用 SCALAR(Structured Critic - Actor Loop for AI Reasoning)来研究这一问题,这是一种应用于量子场论和弦理论问题的 Actor-Critic-Judge 管道。参与者提出解决方案,评论家提供迭代反馈,独立法官根据参考解决方案评估抄本。我们改变了 Actor 角色、Critic 反馈策略以及 Actor 模型系列和规模。多轮对话自始至终都比单次尝试有所改进,但改进机制和不同提示选择的价值在很大程度上取决于演员-评论家配对。增加一个模型系列内的规模(例如从 8B 参数 DeepSeek-R1 变体到 DeepSeek-R1 70B)可以改善一些更容易解决问题的行为,但并不能消除我们观察到的最困难的瓶颈。批评家反馈策略在不对称的演员-批评家环境中最为重要(例如,由更强的十四行诗批评家指导的轻量级俳句演员),其中建设性反馈可以提高平均分结果。在同族演员-评论家环境中,策略效果较弱:宽松的反馈有时会受到青睐,而严格和对抗性的反馈则无益。总而言之,SCALAR 提供了一个受控测试平台,用于评估哪些交互结构有助于或阻碍人工智能驱动的科学发现。

相关文章推荐

返回首页