AI Insight Hub - 最新人工智能动态

arXiv:2603.13257v1 公告类型：新摘要：深度强化学习（DRL）代理在连续控制方面取得了显着的性能，但仍然不透明，阻碍了在安全关键领域的部署。现有的可解释性方法要么仅提供局部见解（SHAP、LIME），要么采用过于简化的替代方法，无法捕获连续动态（决策树）。这项工作提出了一种分层 Takagi-Sugeno-Kang (TSK) 模糊分类器系统 (FCS)，通过用于状态划分的 K 均值聚类和用于局部动作推理的岭回归，将神经策略提炼为人类可读的 IF-THEN 规则。引入了三个可量化的指标：测量解释焦点的模糊规则激活密度（FRAD）、验证词汇完整性的模糊集覆盖（FSC）以及评估控制模式多样性的动作空间粒度（ASG）。动态时间规整 (DTW) 验证时间行为保真度。对 \textit{Lunar Lander（连续）} 的实证评估表明，三角隶属函数变体的保真度达到 81.48\% $\pm$ 0.43\%，比决策树高出 21 个百分点。该框架表现出统计上优越的可解释性（FRAD = 0.814 vs. 高斯的 0.723，$p < 0.001$），且 MSE (0.0053) 和 DTW 距离 (1.05) 较低。提取的规则，例如“如果着陆器在高空向左漂移，那么应用向上推力并向右修正”可以进行人工验证，建立一条通向值得信赖的自主系统的途径。

将深度强化学习提炼为可解释的模糊规则：可解释的人工智能框架

相关文章推荐

国防部官员表示，五角大楼正在计划让人工智能公司对机密数据进行培训

如何有效审查 Claude 代码输出

自托管您的第一个法学硕士