来源:ArXiv AI 2026-04-07 04:00

TABQAWORLD:优化多转台问答的多模态推理

推理 TABQAWORLD 通过 提高 表示
arXiv:2604.03393v1 公告类型:新 摘要:多模态推理已成为增强推理模型推理能力的强大框架。虽然多转表推理方法通过工具使用和奖励建模提高了推理准确性,但它们依赖于固定文本序列化来读取表状态。这会在表编码中引入表示错误,这些错误会在多轮中显着累积。通过表格基础方法可以减轻这种积累,但会牺牲推理计算和成本,从而使现实世界的部署变得不切实际。为了解决这个问题,我们引入了 TABQAWORLD,一个表格推理框架,通过表示和估计联合优化表格操作。对于表示,TABQAWORLD 采用动作条件多模式选择策略,该策略在视觉和文本表示之间动态切换,以最大限度地提高表状态读出的可靠性。在估计方面,TABQAWORLD通过维度、数据类型和键值等表元数据优化逐步推理轨迹,安全地规划轨迹并压缩低复杂度动作,以减少对话次数和延迟。实证评估表明,TABQAWORLD 设计为免训练框架,实现了最先进的性能,与基线相比,准确度提高了 4.87%,与静态设置相比,准确度提高了 5.42%,推理延迟降低了 33.35%,为可靠、高效的表推理建立了新标准。

相关文章推荐

返回首页