AI Insight Hub - 最新人工智能动态

arXiv:2603.10564v1 公告类型：新摘要：将生成式人工智能模型集成到人工智能原生网络系统中，为实现自主和自适应控制提供了一条变革之路。然而，这种模型在连续控制任务中的应用受到内在架构限制的阻碍，包括有限的上下文窗口、缺乏明确的奖励信号以及长上下文的退化。本文认为，解锁稳健的连续控制的关键是使代理能够通过将经验提炼为参数来内化经验，而不是依赖基于提示的记忆。为此，我们提出了一种新颖的自我微调框架，使代理系统能够通过与环境的直接交互来持续学习，从而绕过手工奖励的需要。我们的框架实现了一种双向反射机制，可以生成自主语言反馈，以根据交互历史构建偏好数据集。随后基于偏好的微调过程将长期经验提炼为模型参数。我们在动态无线接入网络（RAN）切片任务上评估我们的方法，这是一个具有挑战性的多目标控制问题，需要解决不稳定网络条件下频谱效率、服务质量和重新配置稳定性之间的尖锐权衡。实验结果表明，我们的框架在样本效率、稳定性和多指标优化方面优于标准强化学习（RL）基线和现有的基于大型语言模型（LLM）的代理。这些发现证明了自我改进的生成代理在连续控制任务中的潜力，为未来的人工智能原生网络基础设施铺平了道路。

通过无奖励自微调代理进行自适应 RAN 切片控制

相关文章推荐

LLM联盟真的需要多样性吗？采用 RLVR 方法进行道德推理的实证研究

CUAAudit：视觉语言模型作为自主计算机使用代理审核员的元评估

IH-Challenge：改善前沿法学硕士教学层次的培训数据集