AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-03-27 04:00
翻译成中文
法学硕士不会像人类一样对论文进行评分
评分
论文
分数
人类
法学硕士
arXiv:2603.23714v1 公告类型:新 摘要:大型语言模型最近被提议作为自动论文评分的工具,但它们与人类评分的一致性仍不清楚。在这项工作中,我们评估了 LLM 生成的分数与人类评分的比较,并分析了 GPT 和 Llama 系列的多个模型在开箱即用的环境中的评分行为,无需进行特定任务的训练。我们的结果表明,法学硕士和人类分数之间的一致性仍然相对较弱,并且随着论文特征的不同而变化。特别是,与人类评分者相比,法学硕士倾向于为简短或不完善的论文分配较高的分数,而为包含轻微语法或拼写错误的较长论文分配较低的分数。我们还发现,法学硕士生成的分数通常与他们生成的反馈一致:受到更多赞扬的论文往往会获得更高的分数,而受到更多批评的论文往往会获得较低的分数。这些结果表明,法学硕士生成的分数和反馈遵循连贯的模式,但依赖于与人类评分者使用的信号不同的信号,导致与人类评分实践的一致性有限。尽管如此,我们的工作表明,法学硕士会产生与其评分一致的反馈,并且可以可靠地用于支持论文评分。
查看原始链接
相关文章推荐
使用 PyTorch DDP 构建生产级多节点训练管道
2026-03-27
Python 量子计算初学者指南
2026-03-27
ElevenLabs 语音 AI 如何取代仓库和制造运营中的屏幕
2026-03-27
返回首页