来源:ArXiv AI 2026-03-04 05:00

基于 LLM 的自动评分的混淆感知量规优化

评分 错误 LLM 自动 混淆
arXiv:2603.00451v1 公告类型:新 摘要:准确且明确的指南对于基于大型语言模型 (LLM) 的评分者至关重要,但手动制作这些提示通常不是最佳的,因为 LLM 可能会误解专家指南或缺乏必要的领域特异性。因此,该领域已转向自动提示优化,以完善评分指南,而无需手动试错。然而,现有框架通常将独立和非结构化的错误样本聚合到单个更新步骤中,从而导致“规则稀释”,其中冲突的约束削弱了模型的评分逻辑。为了解决这些限制,我们引入了混淆感知量规优化(CARO),这是一种新颖的框架,通过在结构上分离误差信号来提高准确性和计算效率。 CARO 利用混淆矩阵将整体错误信号分解为不同的模式,从而可以单独诊断和修复特定的错误分类模式。通过针对主要错误模式合成有针对性的“修复补丁”并采用多样性感知选择机制,该框架可以防止指导冲突并消除对资源密集型嵌套细化循环的需要。对教师教育和 STEM 数据集的实证评估表明,CARO 显着优于现有的 SOTA 方法。这些结果表明,用外科手术、特定模式修复取代混合错误聚合可以在自动评估的可扩展性和精度方面产生显着的改进。

相关文章推荐

返回首页