AI Insight Hub - 最新人工智能动态

arXiv:2603.23714v1 公告类型：新摘要：大型语言模型最近被提议作为自动论文评分的工具，但它们与人类评分的一致性仍不清楚。在这项工作中，我们评估了 LLM 生成的分数与人类评分的比较，并分析了 GPT 和 Llama 系列的多个模型在开箱即用的环境中的评分行为，无需进行特定任务的训练。我们的结果表明，法学硕士和人类分数之间的一致性仍然相对较弱，并且随着论文特征的不同而变化。特别是，与人类评分者相比，法学硕士倾向于为简短或不完善的论文分配较高的分数，而为包含轻微语法或拼写错误的较长论文分配较低的分数。我们还发现，法学硕士生成的分数通常与他们生成的反馈一致：受到更多赞扬的论文往往会获得更高的分数，而受到更多批评的论文往往会获得较低的分数。这些结果表明，法学硕士生成的分数和反馈遵循连贯的模式，但依赖于与人类评分者使用的信号不同的信号，导致与人类评分实践的一致性有限。尽管如此，我们的工作表明，法学硕士会产生与其评分一致的反馈，并且可以可靠地用于支持论文评分。

法学硕士不会像人类一样对论文进行评分

相关文章推荐

使用 PyTorch DDP 构建生产级多节点训练管道

Python 量子计算初学者指南

ElevenLabs 语音 AI 如何取代仓库和制造运营中的屏幕