AI Insight Hub - 最新人工智能动态

arXiv:2603.13251v1 公告类型：新摘要：HumanEval 和 MBPP 等传统基准测试可以有效地测试逻辑和语法，但当代码必须产生动态的教学视觉效果时就会失败。我们推出 ManiBench，这是一个专门评估 LLM 在生成 Manim CE 代码方面的性能的基准测试，其中时间保真度和版本感知 API 正确性至关重要。 ManiBench 针对两种关键故障模式：句法幻觉（有效的 Python 引用不存在或已弃用的 Manim API）和视觉逻辑漂移（由于计时错误或缺失因果关系，生成的视觉效果与预期的数学逻辑不同）。该基准测试包含 150-200 个问题，涵盖微积分、线性代数、概率、拓扑和人工智能等五个难度级别，基于对 3Blue1Brown 的 ManimGL 源代码（53,000 行，143 个场景类）的分析。评估使用四层框架来测量可执行性、版本冲突错误率、对齐分数和覆盖分数。开源框架可以自动评估多个模型和提示策略。代码、数据和基准套件可在 https://github.com/nabin2004/ManiBench 获取。数据集托管在 https://huggingface.co/datasets/nabin2004/ManiBench 上。

ManiBench：Manim 代码生成中测试视觉逻辑漂移和句法幻觉的基准

相关文章推荐

国防部官员表示，五角大楼正在计划让人工智能公司对机密数据进行培训

如何有效审查 Claude 代码输出

自托管您的第一个法学硕士