#explainability 主题 - Cyber Security Daily Radar

👥 作者: Xingzhi Qian, Xinran Zheng, Yiling He, Lorenzo Cavallaro

该论文提出了一种名为 Malaika 的多智能体框架，用于解决恶意软件理解中的核心挑战：如何在部分可观测性下，从稀疏、分散的代码证据中重建高级恶意行为，并与良性功能区分。作者将恶意软件理解形式化为一个基于证据的推理问题，并主张可靠的行为重建需要三种互补的接地：领域接地（约束假设生成与评估）、语义接地（定位并连接程序证据）、知识接地（通过外部可验证威胁知识支持行为归因）。Malaika 框架通过模拟分析师的推理过程、工具辅助的证据定位和基于检索的行为归因来实现这三种机制，并在 Android 恶意软件分析任务上进行了评估。结果显示，Malaika 在分析质量上优于先前的基于 LLM 的恶意软件分析框架，并表明可靠性不仅依赖于模型能力，还依赖于推理过程。与恶意软件分析系统和前沿智能体框架的对比表明，接地感知推理能产生更精确、可审计的结论。消融研究进一步支持了接地假设。该工作为可靠恶意软件理解提供了原则性基础，并更广泛地适用于基于证据的软件分析。

💡 推荐理由: 该研究为利用 LLM 进行恶意软件分析提供了可解释、可审计的推理框架，有助于分析师高效定位恶意行为证据并形成可信结论，提升自动化分析可靠性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mona Rajhans, Vishal Khawarey

该论文研究网络安全分类器在面对对抗性攻击时的鲁棒性及其可解释性稳定性问题。以往工作主要关注基于梯度的攻击方法，但许多实际分类器（如随机森林、XGBoost）是不可微的树模型。作者将先前的MLP研究扩展到随机森林和XGBoost，并在四个表格安全数据集（钓鱼URL、UNSW-NB15、NF-ToN-IoT、HIKARI-2021）上评估了五种攻击，包括三种适用于不可微树模型的黑盒方法。论文引入了解释稳定性指数（ESI），这是一个基于TreeSHAP归因漂移的标量指标，与鲁棒性指数（RI）在同一[0,1]尺度上报告。关键发现是：基于梯度的黑盒攻击（ZOO）对XGBoost产生退化结果（表观RI约0.98），这是由于分段常数预测表面导致的；而基于得分的Square Attack揭示了真正的脆弱性（RI约0.36）。这些退化扰动仍然会导致显著的归因漂移：XGBoost的ESI在0.06-0.16之间，尽管ZOO鲁棒性接近完美，而随机森林的ESI在0.14-0.29之间，表明预测鲁棒性和解释稳定性是两个不同的轴，需要联合测量。作者提出了一个两轴框架（梯度依赖性和查询效率）来解释观察到的攻击排名，并为树集成评估提供了实用指导。此外，步骤大小消融实验解释了在z-score归一化表格数据上PGD的异常现象。该研究对于安全分析师理解模型解释的可靠性以及防御对抗攻击具有重要意义。

💡 推荐理由: 揭示了树模型在对抗攻击下预测鲁棒性与解释稳定性的脱节，提醒蓝队仅依赖预测分数可能遗漏解释被操控的风险，对基于ML的安全告警研判有直接影响。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chengzeng You, Binbin Xu, Soteris Demetriou

该论文研究了基于点云的3D目标检测器在复杂场景下的结构脆弱性。现有工作主要关注孤立3D模型的对抗鲁棒性，而最近的LiDAR欺骗攻击虽然针对真实驾驶场景，但侧重于物理可实现性，未深入分析检测器的行为模式或攻击效率。本文提出一种可解释性引导的对抗分析方法：首先提出Saliency-LiDAR（SALL）方法，通过聚合跨场景的积分梯度归因，生成适用于LiDAR 3D目标检测器的通用显著性图；然后基于该图设计可解释性感知的视锥攻击（EFA），仅扰动对检测结果影响最大的视锥区域，而非均匀攻击整个目标区域。在KITTI和nuScenes数据集上，针对PointPillars和SECOND等检测器的实验表明，EFA在减少15个百分点以上检测召回率的同时，所需扰动的视锥数量比现有非显著性基线少25%-50%。这些发现揭示了现代3D检测器的判别证据集中于少量空间子区域，暴露了当前LiDAR感知系统中的结构性鲁棒性漏洞。代码已开源。

💡 推荐理由: 首次利用可解释性分析揭露LiDAR检测器的结构脆弱性，为自动驾驶系统的安全评估提供新视角，攻击效率显著提升。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Vojtěch Staněk, Veronika Jirmusová, Anton Firc, Kamil Malinka, Jakub Reš, Martin Perešíni

本文针对深度伪造语音检测器的可解释性不足问题，提出了一种基于积分梯度（Integrated Gradients）和时间对齐自监督表示（如WavLM）的音频原生可解释性流水线。该方法能够定位检测器在时间维度上的决策证据，并语义化解释最重要的声学线索。作者将方法应用于三种基于WavLM的检测器（AASIST、CA-MHFA、SLS），并在ASVspoof 5数据集上进行分析。通过人工标注最高归因区域，发现各检测器依赖不同的线索：AASIST强调非语音/环境线索，CA-MHFA关注局部音素伪影，SLS依赖词边界和频谱完整性。进一步通过因果掩码验证，去除主要线索后检测性能显著下降，证实了归因分析的有效性。该研究为理解深度伪造语音检测器的内部机制提供了可解释性工具，有助于改进检测器的鲁棒性和可信度。

💡 推荐理由: 该研究为深度伪造语音检测提供了可解释性方法，帮助安全分析师理解检测器的决策依据，从而在选择、部署和调试检测器时做出更明智的决策，增强对AI模型的信任。

🎯 建议动作: 研究跟进该可解释性方法的实现，评估其在自有机房检测流水线中的适用性。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Saif Alzubi, Frederic Stahl

未知网络攻击（尤其是零日攻击）检测是入侵检测系统的重大挑战。监督学习方法对已知攻击类效果好，但无法处理训练数据中未出现的新攻击类型；无监督方法虽能检测未知攻击，但误报率高，限制了实际应用。本文提出UNAD+框架，是对原有UNAD的改进。UNAD+包含三个核心组件：1）仅使用良性样本训练的无监督集成模型，通过加权多数投票（WMV）聚合基检测器结果；2）基于伪标签的监督细化阶段，利用无监督检测输出生成伪标签并训练分类器，以降低误报；3）事后可解释性层，提供局部和全局解释，增强透明度。在CICIDS2017和NSL-KDD基准数据集上的实验表明，UNAD+在保持高检测率的同时，F1分数超过98%，误报率显著低于原始UNAD。集成可解释性使其更适用于实际部署。该研究主要面向网络安全研究人员和入侵检测系统开发者，提供了一种平衡检测率与误报率的未知攻击检测方案。

💡 推荐理由: UNAD+通过融合无监督集成、伪标签细化和可解释性，显著降低了零日攻击检测的误报率，同时保持高F1分数，为实际SOC部署提供了可行的方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yuyou Gan, Yuhao Mao, Xuhong Zhang 0002, Shouling Ji, Yuwen Pu, Meng Han, Jianwei Yin, Ting Wang 0006

本文针对特征归因（Feature Attribution）解释方法的鲁棒性评估问题展开研究。特征归因是解释机器学习模型预测结果的一种常见技术，通过为输入特征分配重要性分数来指示其对模型输出的贡献。然而，现有研究指出，这些解释可能对输入中的微小扰动高度敏感，即存在鲁棒性问题。本文提出一个系统性的鲁棒性评估框架，用于量化特征归因解释在面对输入扰动时的稳定性。该框架首先定义了一系列鲁棒性度量指标，如最大扰动幅度下的解释变化程度，并设计了高效的优化算法来寻找最坏情况下的扰动。实验在多个数据集和多种归因方法（包括梯度类、扰动类和代理模型类方法）上进行验证。结果表明，不同归因方法的鲁棒性存在显著差异，且鲁棒性与解释的保真度、稀疏性等属性并非正相关。该工作为特征归因解释的可靠性评估提供了标准化工具，有助于理解解释方法的局限性并指导后续改进。

💡 推荐理由: 特征归因解释的鲁棒性是模型可解释性领域的关键问题，直接影响用户对AI决策的信任。本框架为评估和比较不同归因方法提供了量化标准，对安全审计、合规检查和模型调试有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#explainability

Malaika: Understanding Malware through Tri-Grounded Agentic Reasoning

Beyond Gradient-Based Attacks: Adversarial Robustness and Explainability Stability in Cybersecurity Classifiers

Explainability-Aware Frustum Attack: Exposing Structural Vulnerabilities in LiDAR-Based 3D Object Detectors

What Do Deepfake Speech Detectors Actually Hear?

UNAD+: An Explainable Hybrid Framework for Unknown Network Attack Detection

"Is your explanation stable?": A Robustness Evaluation Framework for Feature Attribution.

#explainability

Malaika: Understanding Malware through Tri-Grounded Agentic Reasoning

Beyond Gradient-Based Attacks: Adversarial Robustness and Explainability Stability in Cybersecurity Classifiers

Explainability-Aware Frustum Attack: Exposing Structural Vulnerabilities in LiDAR-Based 3D Object Detectors

What Do Deepfake Speech Detectors Actually Hear?

UNAD+: An Explainable Hybrid Framework for Unknown Network Attack Detection

&quot;Is your explanation stable?&quot;: A Robustness Evaluation Framework for Feature Attribution.

"Is your explanation stable?": A Robustness Evaluation Framework for Feature Attribution.