#feature-attribution 主题 - Cyber Security Daily Radar

👥 作者: Yuyou Gan, Yuhao Mao, Xuhong Zhang 0002, Shouling Ji, Yuwen Pu, Meng Han, Jianwei Yin, Ting Wang 0006

本文针对特征归因（Feature Attribution）解释方法的鲁棒性评估问题展开研究。特征归因是解释机器学习模型预测结果的一种常见技术，通过为输入特征分配重要性分数来指示其对模型输出的贡献。然而，现有研究指出，这些解释可能对输入中的微小扰动高度敏感，即存在鲁棒性问题。本文提出一个系统性的鲁棒性评估框架，用于量化特征归因解释在面对输入扰动时的稳定性。该框架首先定义了一系列鲁棒性度量指标，如最大扰动幅度下的解释变化程度，并设计了高效的优化算法来寻找最坏情况下的扰动。实验在多个数据集和多种归因方法（包括梯度类、扰动类和代理模型类方法）上进行验证。结果表明，不同归因方法的鲁棒性存在显著差异，且鲁棒性与解释的保真度、稀疏性等属性并非正相关。该工作为特征归因解释的可靠性评估提供了标准化工具，有助于理解解释方法的局限性并指导后续改进。

💡 推荐理由: 特征归因解释的鲁棒性是模型可解释性领域的关键问题，直接影响用户对AI决策的信任。本框架为评估和比较不同归因方法提供了量化标准，对安全审计、合规检查和模型调试有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

#feature-attribution

&quot;Is your explanation stable?&quot;: A Robustness Evaluation Framework for Feature Attribution.

"Is your explanation stable?": A Robustness Evaluation Framework for Feature Attribution.