来源:ArXiv AI 2026-03-06 05:00

当代理人说服时:法学硕士中的宣传产生和缓解

宣传 法学硕士 缓解 生成 研究
arXiv:2603.04636v1 公告类型:新 摘要:尽管具有广泛的好处,但部署在开放环境中的基于 LLM 的代理可以用来生成可操作的材料。在这项研究中,我们为法学硕士设定了宣传目标,并使用两种特定领域的模型来分析他们的输出:一种将文本分类为宣传或非宣传,另一种检测宣传的修辞技巧(例如,负载语言、诉诸恐惧、挥舞旗帜、谩骂)。我们的研究结果表明,当有提示时,法学硕士会表现出宣传行为,并使用各种修辞技巧来做到这一点。我们还探索通过监督微调(SFT)、直接偏好优化(DPO)和 ORPO(比值比偏好优化)来缓解。我们发现微调显着降低了他们生成此类内容的倾向,而 ORPO 被证明是最有效的。

相关文章推荐

返回首页