AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-03-17 04:00
翻译成中文
ManiBench:Manim 代码生成中测试视觉逻辑漂移和句法幻觉的基准
测试
基准
逻辑
ManiBench
Manim
arXiv:2603.13251v1 公告类型:新 摘要:HumanEval 和 MBPP 等传统基准测试可以有效地测试逻辑和语法,但当代码必须产生动态的教学视觉效果时就会失败。我们推出 ManiBench,这是一个专门评估 LLM 在生成 Manim CE 代码方面的性能的基准测试,其中时间保真度和版本感知 API 正确性至关重要。 ManiBench 针对两种关键故障模式:句法幻觉(有效的 Python 引用不存在或已弃用的 Manim API)和视觉逻辑漂移(由于计时错误或缺失因果关系,生成的视觉效果与预期的数学逻辑不同)。该基准测试包含 150-200 个问题,涵盖微积分、线性代数、概率、拓扑和人工智能等五个难度级别,基于对 3Blue1Brown 的 ManimGL 源代码(53,000 行,143 个场景类)的分析。评估使用四层框架来测量可执行性、版本冲突错误率、对齐分数和覆盖分数。开源框架可以自动评估多个模型和提示策略。代码、数据和基准套件可在 https://github.com/nabin2004/ManiBench 获取。数据集托管在 https://huggingface.co/datasets/nabin2004/ManiBench 上。
查看原始链接
相关文章推荐
国防部官员表示,五角大楼正在计划让人工智能公司对机密数据进行培训
2026-03-17
如何有效审查 Claude 代码输出
2026-03-17
自托管您的第一个法学硕士
2026-03-17
返回首页