#interpretability

共收录 4 条相关安全情报。

← 返回所有主题
推荐 3.5
Conf: 50%
👥 作者: Mateo Espinosa Zarlenga

该论文重新审视了基于概念模型(Concept-based Models, CMs)中信息泄漏的传统观点。CMs是一类深度神经网络,其预测基于与人类可理解概念(如“圆形”、“条纹”等)对齐的表示。过往研究通常认为,CMs会学习到泄漏概念无关信息的表示,这种泄漏被视为不可取的,应予以消除,因为它会导致模型不可解释。然而,本文作者指出,这一传统观点在两方面存在缺陷:首先,泄漏导致模型不可解释的证据往往不具决定性;其次,在现实世界中常见概念不完备(concept incompleteness)的约束下,完全消除泄漏会导致模型不实用。作者论证,在概念不完备成为常态的实际场景中,一定程度的泄漏对于构建准确且可干预(intervenable)的CMs是必要的。据此,他们提出了“良性泄漏”(benign leakage)的概念,并通过重新构建典型的CM训练目标,使得模型能够主动鼓励并利用这种良性泄漏,而不会牺牲预测准确性或干预能力。论文通过理论分析和实验验证,展示了所提方法在多个基准上的有效性。该研究为CMs的设计提供了新视角,有助于在保持可解释性的同时提升模型实用性。适合机器学习、可解释AI领域的研究者和从业者阅读。

💡 推荐理由: 颠覆了概念模型必须消除信息泄漏的固有认知,提出了良性泄漏的新范式,对设计既准确又可干预的现实CMs具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Dongqi Han, Zhiliang Wang, Wenqi Chen, Ying Zhong, Su Wang, Han Zhang 0009, Jiahai Yang 0001, Xingang Shi, Xia Yin 0001

论文《DeepAID: Interpreting and Improving Deep Learning-based Anomaly Detection in Security Applications》聚焦于安全领域中基于深度学习的无监督异常检测模型的可解释性问题。尽管深度神经网络在检测未知威胁方面表现出色,但其缺乏可解释性严重阻碍了实际部署。现有解释方法主要针对监督学习模型和非安全领域设计,无法直接适用于无监督模型,也难以满足安全领域的特殊需求(如误报分析、攻击溯源等)。为此,作者提出DeepAID框架,旨在为无监督深度学习异常检测模型提供解释。该方法通过分析模型内部表示和决策边界,生成与异常检测任务语义一致的解释,并利用解释结果指导模型改进,提升检测性能。实验在多个安全数据集(如网络入侵检测、恶意软件检测)上验证了DeepAID的有效性:相比基线方法,DeepAID生成的解释更准确、更符合安全专家认知,且能有效帮助安全分析师理解异常原因、减少误报。此外,作者还展示了如何利用解释反馈优化模型,使检测精度进一步提升。该工作为深度学习模型在安全运维中的可信应用提供了重要支撑。

💡 推荐理由: 可解释性是深度学习模型在安全运维中落地的主要障碍,DeepAID专门针对无监督异常检测场景提出解决方案,直接提升蓝队对模型输出的信任和可用性。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Peiyang Li, Fukun Mei, Ye Wang, Zhuotao Liu, Ke Xu 0002, Chao Shen 0001, Qian Wang 0002, Qi Li 0002

该论文针对基于深度学习的Web攻击检测模型缺乏可解释性的问题,提出了一种通过恶意载荷定位实现可解释检测的方法。作者认为,传统深度学习模型在检测Web攻击时虽然准确率高,但无法明确指出攻击的具体位置,导致安全分析师难以理解和验证检测结果。为此,论文设计了一个包含注意力机制的神经网络架构,该架构在检测恶意请求的同时,能够输出输入文本中每个token对最终判断的贡献权重,从而定位出关键的恶意载荷片段。实验基于公开的Web攻击数据集(如HTTP CSIC 2010和CICIDS2017)进行,结果表明所提方法在保持高检测精度(F1-score > 0.98)的前提下,能够有效定位出SQL注入、XSS等攻击的Payload部分,并且定位结果与人工标注的ground truth高度一致。此外,论文还通过可视化案例展示了模型的可解释性输出,验证了其在实际安全分析中的辅助价值。该研究为深度学习在安全领域的落地提供了新的思路,使得模型不仅是一个黑盒检测器,还能给出可被人类理解的证据。

💡 推荐理由: 该研究解决了深度学习模型在Web安全检测中缺乏可解释性的痛点,有助于安全分析师信任并采纳AI检测结果,提升告警研判效率。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuyou Gan, Yuhao Mao, Xuhong Zhang 0002, Shouling Ji, Yuwen Pu, Meng Han, Jianwei Yin, Ting Wang 0006

本文针对特征归因(Feature Attribution)解释方法的鲁棒性评估问题展开研究。特征归因是解释机器学习模型预测结果的一种常见技术,通过为输入特征分配重要性分数来指示其对模型输出的贡献。然而,现有研究指出,这些解释可能对输入中的微小扰动高度敏感,即存在鲁棒性问题。本文提出一个系统性的鲁棒性评估框架,用于量化特征归因解释在面对输入扰动时的稳定性。该框架首先定义了一系列鲁棒性度量指标,如最大扰动幅度下的解释变化程度,并设计了高效的优化算法来寻找最坏情况下的扰动。实验在多个数据集和多种归因方法(包括梯度类、扰动类和代理模型类方法)上进行验证。结果表明,不同归因方法的鲁棒性存在显著差异,且鲁棒性与解释的保真度、稀疏性等属性并非正相关。该工作为特征归因解释的可靠性评估提供了标准化工具,有助于理解解释方法的局限性并指导后续改进。

💡 推荐理由: 特征归因解释的鲁棒性是模型可解释性领域的关键问题,直接影响用户对AI决策的信任。本框架为评估和比较不同归因方法提供了量化标准,对安全审计、合规检查和模型调试有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)