AI Insight Hub - 最新人工智能动态

arXiv:2510.12047v1 公告类型：新摘要：流行的代码生成基准（例如 HumanEval+ 和 MBPP+）主要使用格式正确的输入通过 pass@k 评估大型语言模型 (LLM) 的功能正确性。然而，他们忽略了现实世界软件的一个关键方面：遵守合同——决定如何拒绝格式错误的输入的先决条件和有效性约束。这种关键的监督意味着现有的基准无法衡量，模型因此无法生成真正健壮且可靠的代码片段。我们引入了 PACT，一个项目评估和合同遵守情况评估框架，以弥补这一差距。 PACT 是第一个旨在系统地评估和增强 LLM 生成的代码片段中的合同遵守情况以及功能正确性的框架。 PACT 的贡献有三方面：首先，它提供了一个全面的测试套件语料库，重点关注合同违规行为，扩展了 HumanEval+ 和 MBPP+。其次，它可以对不同提示条件下的代码生成进行系统分析。此分析表明，与单独使用契约描述相比，通过违反契约的测试用例来增强提示可以显着增强模型尊重契约的能力。最后，它引入了新的指标来严格量化测试生成和代码生成中的合同遵守情况。通过揭示传统基准测试忽略的关键错误，PACT 提供了严格且可解释的指标来评估 LLM 生成的代码片段在功能和合同遵守方面的稳健性。我们的代码和数据可在 https://github.com/suhanmen/PACT 上获取。

大型语言模型尊重契约吗？评估和执行代码生成中的契约遵守情况

相关文章推荐

人工智能代理作为通用任务求解器

ThinkPilot：通过自动思考前缀优化引导推理模型

赋予法学硕士代理人地理空间意识：野火响应的扎根推理