来源:ArXiv AI 2026-03-17 04:00

ManiBench:Manim 代码生成中测试视觉逻辑漂移和句法幻觉的基准

测试 基准 逻辑 ManiBench Manim
arXiv:2603.13251v1 公告类型:新 摘要:HumanEval 和 MBPP 等传统基准测试可以有效地测试逻辑和语法,但当代码必须产生动态的教学视觉效果时就会失败。我们推出 ManiBench,这是一个专门评估 LLM 在生成 Manim CE 代码方面的性能的基准测试,其中时间保真度和版本感知 API 正确性至关重要。 ManiBench 针对两种关键故障模式:句法幻觉(有效的 Python 引用不存在或已弃用的 Manim API)和视觉逻辑漂移(由于计时错误或缺失因果关系,生成的视觉效果与预期的数学逻辑不同)。该基准测试包含 150-200 个问题,涵盖微积分、线性代数、概率、拓扑和人工智能等五个难度级别,基于对 3Blue1Brown 的 ManimGL 源代码(53,000 行,143 个场景类)的分析。评估使用四层框架来测量可执行性、版本冲突错误率、对齐分数和覆盖分数。开源框架可以自动评估多个模型和提示策略。代码、数据和基准套件可在 https://github.com/nabin2004/ManiBench 获取。数据集托管在 https://huggingface.co/datasets/nabin2004/ManiBench 上。

相关文章推荐

返回首页