推荐 9.6
Conf: 50%
本文针对特征归因(Feature Attribution)解释方法的鲁棒性评估问题展开研究。特征归因是解释机器学习模型预测结果的一种常见技术,通过为输入特征分配重要性分数来指示其对模型输出的贡献。然而,现有研究指出,这些解释可能对输入中的微小扰动高度敏感,即存在鲁棒性问题。本文提出一个系统性的鲁棒性评估框架,用于量化特征归因解释在面对输入扰动时的稳定性。该框架首先定义了一系列鲁棒性度量指标,如最大扰动幅度下的解释变化程度,并设计了高效的优化算法来寻找最坏情况下的扰动。实验在多个数据集和多种归因方法(包括梯度类、扰动类和代理模型类方法)上进行验证。结果表明,不同归因方法的鲁棒性存在显著差异,且鲁棒性与解释的保真度、稀疏性等属性并非正相关。该工作为特征归因解释的可靠性评估提供了标准化工具,有助于理解解释方法的局限性并指导后续改进。
💡 推荐理由: 特征归因解释的鲁棒性是模型可解释性领域的关键问题,直接影响用户对AI决策的信任。本框架为评估和比较不同归因方法提供了量化标准,对安全审计、合规检查和模型调试有参考价值。
🎯 建议动作: 研究跟进
排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)