#explainable-ai 主题 - Cyber Security Daily Radar

👥 作者: Peiyang Li, Fukun Mei, Ye Wang 0002, Zhuotao Liu, Ke Xu 0002, Chao Shen 0001, Qian Wang 0002, Qi Li 0002

本文提出了一种可解释的基于深度学习的Web攻击检测方法，核心目标是解决深度学习模型在Web攻击检测中‘黑盒’特性导致的不可信问题。现有基于深度学习的Web入侵检测系统虽然具有较高的检测准确率，但无法向安全分析人员解释为何将某条请求判定为攻击，这使得安全运营人员难以验证告警真实性、定位攻击特征并进行快速响应。为此，作者提出通过恶意载荷定位（Malicious Payload Localization）的方式，在给出检测结果的同时，明确指出请求中具体哪一部分字符或Token构成了攻击载荷，从而将模型决策过程转化为可读的、可验证的定位结果。研究中，作者设计了一种能够同时完成检测和定位的神经网络架构，利用注意力机制或多实例学习等方式，将分类概率映射到输入序列的局部片段，并通过约束训练让模型学习对恶意关键词或异常结构产生稀疏且集中的注意力，从而输出高分辨率的恶意载荷片段。在公开的Web攻击数据集（如CSIC 2010、CICIDS等）以及真实流量样例上，作者进行了大量实验，结果表明该方法在保持与现有深度检测模型相当甚至更优的检测性能（准确率、召回率、F1值）的前提下，能够较为精准地定位出恶意载荷的起止位置，且定位结果与人工标注的攻击特征具有较高重合度。此外，文章还探讨了该定位能力对模型鲁棒性的影响，发现引入定位任务有助于减少误报，并提升对未知攻击变体的泛化能力。本文适合从事Web安全检测、AI可解释性研究以及安全运营平台开发的工程师和研究人员阅读，其提供的可解释输出机制可直接嵌入现有WAF或NDR系统中，帮助蓝队更快完成告警研判和攻击溯源。

💡 推荐理由: 深度检测模型常因不可解释而遭安全团队抵触。本文通过恶意载荷定位直接输出攻击片段，大幅提升告警研判效率，便于蓝队快速确认威胁并提取IOC，是AI安全落地的重要一步。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Neta Kirmayer, David Tayouri, Andrés Murillo, Motoyoshi Sekiya, Asaf Shabtai, Rami Puzis

本文针对安全运营中心（SOC）依赖异常检测系统标记可疑事件时，传统基于特征的解释难以满足实际调查需求的问题，提出了一种以事件为中心、与检测器无关的网络安全告警解释方法。作者指出，分析人员不仅需要知道某个特征偏离了正常范围，更需了解告警涉及的实体之间的上下文关系，并获得可操作的理解。为此，他们设计了一个名为（EC）2的多智能体框架，该框架通过结构化、假设驱动的调查流程，为小型和中型企业网络中的安全告警生成基于可验证证据的解释。该框架将调查过程分解为多个智能体协作任务，每个智能体负责收集特定类型的证据并验证假设，最终整合出一份操作上有意义的解释报告。实验评估表明，该框架能显著提升告警后分析的效率，生成的事件解释不仅比传统特征级解释更符合运营人员的理解需求，还能提高后续事件分类的准确性。本文的主要贡献包括：提出事件中心的可解释性范式、设计多智能体协作调查架构、并在真实或模拟企业网络数据上验证了其有效性。适合安全运营分析师、SOAR平台开发者及可解释AI（XAI）在安全领域的研究者阅读。

💡 推荐理由: 现有异常检测解释过于底层，难以支撑实际告警调查。（EC）2 将解释从“特征偏离”提升到“事件关联与证据链”，对提升SOC响应效率、辅助分类研判具有直接价值，是XAI与安全运营结合的新方向。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yuge Zhang, Yuanxing Zhang, Yichao Jin, Khairul Amsyar Mohd Razis, Nicholas Qi An Choo, Kai Yin Anders Wong, Xinyan Tang, Kenneth Zhu Ke, Wee Keong Dennis Lee, Jingyuan Zhao

该论文提出了一种端到端的解释性钱骡账户检测管道，旨在解决金融欺诈中钱骡账户难以大规模检测的问题。管道分为三个阶段：首先，使用LightGBM分类器在280个工程特征上训练，这些特征涵盖交易模式、账户人口统计、网络拓扑和时间行为；其次，引入TreeSHAP归因层，为每个预测分解特征贡献；最后，利用大语言模型（LLM）将SHAP归因转换为面向分析师的自然语言叙述。研究评估了三种开源LLM家族，并通过分析师反馈评估解释质量。在生产部署中，该系统实现了89%的收益率（原基于规则的系统为61%），月警报量从211条增至302条（反映更广的真阳性覆盖而非噪音），增量不良检测率达到60%，显著优于规则方法。定性反馈表明，LLM生成的叙述减轻了分析师在警报分类中的认知负担。论文还讨论了在受监管金融环境中部署LLM增强可解释性的启示。该研究适合金融风控、反欺诈及可解释AI领域的研究者和从业者阅读。

💡 推荐理由: 钱骡账户是金融欺诈的关键环节，该管道在真实生产中显著提升检测效率与覆盖率，同时通过LLM提供可解释性，直接降低分析师运营成本，对银行和支付机构有实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ayush Kumar, Vrizlynn L. L. Thing

本文提出 EXP-SEC 框架，旨在为基于深度学习的网络入侵检测系统（DL-based NIDS）生成的告警提供可解释性，使安全运营中心（SOC）的分析师能够理解告警背后的决策依据。研究背景是：现有DL-based NIDS虽然检测精度高，但缺乏可解释性，安全分析师难以验证或调试告警，导致信任度不足。核心问题是如何在保持解释质量的同时，匹配安全分析师基于流量特征和攻击模式的领域知识。EXP-SEC包含三个主要模块：（1）取证模块：从告警相关联的网络流量中隔离出可疑的数据包或流，定位引发告警的关键证据；（2）解释模块：采用可处理复杂特征依赖的机制，允许特征被划分成可能重叠的分组，并区分不同分组的重要性，从而生成更细粒度的解释；（3）多阶段映射模块：将解释模块输出的基于特征/分组的解释转化为适合安全分析师处理的领域特定解释（例如，直接指出“该连接使用了异常的端口组合”等）。实验使用多个最新的DL-based NIDS进行评测，结果表明：在分组级别和考虑重叠的解释效用指标上，EXP-SEC显著优于现有最佳解释框架xNIDS；在常规特征级别的指标（如描述准确性、稀疏性和稳定性）上，两者表现相近。此外，论文通过一个实际DL-based NIDS案例，展示了EXP-SEC输出的安全分析师友好型解释格式。该研究适合从事NIDS可解释性、安全运维自动化的研究人员及SOC技术负责人阅读。

💡 推荐理由: 填补了深度学习NIDS可解释性领域的空白，提供的解释能直接对接安全分析师的领域知识，有助于提升告警研判效率和模型可信度。

🎯 建议动作: 研究跟进，评估EXP-SEC框架在自身NIDS环境中的集成可行性。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ahmed Omar Salim Adnan, Yogananda Manjunath, Shivanjali Khare

该论文针对生成式人工智能背景下日益严重的对话式诈骗威胁提出了一种可解释的智能体系统。对话式诈骗通常持续数周或数月，逐步建立信任后索取金钱或敏感信息，而现有检测系统主要关注孤立信息，难以应对此类复杂攻击。本文首先扩展了单消息钓鱼检测，构建了一个基于智能体的检测系统，该系统利用摘要式记忆机制在对话层面进行推理，并能够提供解释。论文还发布了首个公开的多类别对话式诈骗基准数据集ConScamBench-278，涵盖8种诈骗类型，支持可重复评估。实验结果表明，在孤立消息上，单消息检测器实现了100%的钓鱼召回率；在对话级别检测中，该系统识别出LoveFraud02语料库中的所有诈骗（83/83），并在ConScamBench-278上达到97.8%的准确率（95% CI [95.4, 99.0]）。此外，两项用户研究（N=100和N=45）显示，参与者在判断可疑对话时经常感到不确定；在无对照的前后比较中，用户对基于AI的诈骗检测的信任度、自信心和感知需求均显著增加（p < 0.001, Wilcoxon符号秩检验）。系统可用性量表得分为74.7（95% CI [72.5, 76.9]），高于公认的可用性基准。该工作强调了可解释性和对话上下文的重要性，为应对基于LLM的社交工程攻击提供了新思路。适合安全研究员、反欺诈工程师以及LLM安全从业者阅读。

💡 推荐理由: 对话式诈骗正借助生成式AI变得更难检测，现有系统往往忽略上下文。本文提出的可解释智能体系统结合摘要记忆，能有效识别长期骗局并给出解释，对提升蓝队对抗社交工程攻击的能力具有直接参考价值。

🎯 建议动作: 研究跟进：评估该方法在自身业务对话数据上的迁移效果，并考虑集成可解释性模块。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shuo Shao 0002, Yiming Li 0004, Hongwei Yao, Yiling He, Zhan Qin, Kui Ren 0001

模型所有权验证是保护模型版权的重要事后方法，现有的主流方案是后门水印，但存在两个致命缺陷：有害性（引入可被恶意利用的误分类行为）和歧义性（恶意用户可轻易通过寻找其他误分类样本来通过验证）。本文指出这些局限源于现有水印方案的“零比特”性质——它们仅利用预测的误分类状态进行验证。受此启发，作者提出了一种新的水印范式“解释即水印”（Explanation as a Watermark, EaaW），将验证行为嵌入特征归因的解释中，而非模型预测。具体而言，EaaW在特定触发样本的特征归因解释中嵌入“多比特”水印，同时保持原始预测不变。受可解释人工智能启发，作者设计了水印嵌入与提取算法，该方法适用于图像分类和文本生成等不同任务。大量实验证明了EaaW的有效性和无害性，以及其抵抗潜在攻击的能力。该研究为模型所有权验证提供了全新思路，避免了后门水印的安全风险，具有重要的理论价值和实践意义。

💡 推荐理由: 解决了现有模型水印方法的有害性和歧义性两大痛点，提出一种无害、多比特的新范式，可推广至多种AI任务，为模型版权保护提供更安全可靠的方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Abdurrahman Tolay

本文提出了一种面向部署的可解释人工智能辅助 eBPF/XDP 缓解框架，专门针对物联网边缘网关设计。物联网环境由异构、资源受限的设备组成，这些设备安全配置薄弱、服务暴露、日志记录有限、补丁更新困难且生命周期长。传统的基于签名和阈值的控制方法在动态物联网网络中作为独立机制是不够的，而离线人工智能基准性能无法直接转化为实际部署能力。为此，本文设计了一个概念框架和研究路线图，该框架在基于 Linux 的物联网边缘网关上实现资源感知的流级人工智能辅助风险评分、事件级可解释性以及通过 eBPF/XDP 进行的有限缓解。控制器应用可逆、有时间限制的动作，并包含关键设备保护机制，更新数据包级执行状态并记录结构化日志。架构将用户空间的复杂推理和策略控制与内核中简洁的数据包处理决策分离。此外，还定义了未来硬件感知评估路径，涵盖检测质量、资源成本、响应时间、回滚行为以及合法流量保留等方面。本文未报告新的实验结果，但为后续研究和实际部署提供了理论框架。

💡 推荐理由: 该框架针对物联网边缘计算环境中的安全检测与缓解问题，结合人工智能可解释性和 eBPF/XDP 快速数据包处理能力，为资源受限设备提供了一种可行且可控的解决方案，值得安全工程师关注。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Bernhard Kneip, Nhien-An Le-Khac, Hong-Hanh Nguyen-Le

该论文针对 Web 服务器日志的取证分析需求，提出了一种名为 CEF-Log 的上下文增强少样本思维链提示策略，用于大语言模型（LLM）。传统机器学习方法在日志检测中常被视为“黑箱”，难以提供符合法律要求的人类可读解释。CEF-Log 通过嵌入专家调查方法，设计了一个结构化的五步推理模板，引导模型学习如何分析日志，而非记忆特定模式。实验基于 CSIC 2010 数据集，仅使用四个示例便达到了 0.99 的 F1 分数，样本效率相比其他基于提示的方法提升了 10 倍。此外，论文还引入了新数据集 ForenWebLog，包含真实攻击和多步攻击序列，用于全面评估。定性分析表明，CEF-Log 生成的解释可追溯、准确，适用于取证文档，解决了传统 ML 方法的“黑箱”问题。该研究适合安全分析师、取证调查人员以及 AI 安全研究者阅读。

💡 推荐理由: 该研究将 LLM 的推理能力与取证需求结合，显著提升了日志分析的样本效率和解释性，有望改善 SOC 的告警调查流程。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chamara Sandeepa, Bartlomiej Siniarski, Shen Wang 0006, Madhusanka Liyanage

随着物联网和移动设备中海量数据的快速增长，分布式机器学习技术日益受到关注，联邦学习（FL）作为一种保护隐私的分布式学习框架，允许多方协作训练模型而无需共享原始数据。然而，FL容易受到数据投毒攻击，恶意客户端可能通过操控本地数据或模型更新来破坏全局模型。现有防御方案多基于相似度度量或异常过滤，但缺乏对攻击者意图的深度分析，且无法提供可解释的证据来判定恶意客户端。针对这一问题，本文提出了SHERPA，一种利用Shapley加法解释（SHAP）来识别FL系统中潜在投毒者的鲁棒算法。SHERPA的核心创新在于：首先，通过SHAP值计算每个客户端对全局模型的特征贡献；然后，基于特征归因聚类开发一种新的算法来区分投毒者和正常客户端。在多个数据集上模拟了不同场景的数据投毒攻击（包括针对隐私的投毒攻击），实验表明SHERPA能够有效缓解攻击，同时提供可解释性，为聚合过程中剔除恶意客户端提供合理的依据。该方法不仅提升了防御的可解释性，还增强了对投毒行为判定的合理性。本文的研究展示了可解释人工智能（XAI）技术在联邦学习安全防御中的潜力，为后验特征归因在对抗数据投毒攻击中的应用提供了新的视角。

💡 推荐理由: 联邦学习的安全性是当前AI隐私计算中的关键挑战。SHERPA提供了可解释的鲁棒防御机制，能帮助安全团队理解为何将某客户端标记为恶意，从而提升联邦学习系统的透明度和可信度。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Md. Arifur Rahman, B. M. Taslimul Haque, Md. Iqbal Hossan, Md. Serajul Kabir Chowdhury Rubel

本文针对分布式基础设施系统（包括云计算、物联网和边缘架构）面临的日益扩大的攻击面与复杂威胁，提出了一种认知威胁情报与可解释联邦安全分析框架。传统集中式入侵检测方法在可扩展性、数据隐私、通信开销以及AI决策透明性方面存在局限。该框架融合联邦学习（FL）、可解释人工智能（XAI）和认知安全分析，实现跨分布式网络的协作式隐私保护威胁检测。其核心是：各分布式节点本地独立训练安全模型，仅通过联邦聚合机制共享加密的模型参数与更新，而非原始网络流量数据，从而提升隐私保护、降低通信依赖与集中风险。在智能威胁分析方面，框架集成了Random Forest、XGBoost、Autoencoder等机器学习和深度学习算法，并通过XAI提供可解释的检测结果，增强安全分析师对AI决策的信任。实验设计与性能评估部分在摘要中未详述，但作者声称该框架在隐私保护、检测准确率和解释性方面优于传统方法。本文适合联邦安全、可解释AI及分布式系统安全领域的研究者与从业者阅读。

💡 推荐理由: 提出了一种结合联邦学习与可解释AI的实用框架，直接回应分布式环境下数据隐私与检测透明性的核心矛盾，为蓝队构建隐私合规的威胁检测系统提供了新思路。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Samuel Ndichu, Tao Ban, Seiichi Ozawa, Takeshi Takahashi, Daisuke Inoue

本文提出了一种名为NLLog（Natural-Language Log）的轻量级日志异常检测管道，旨在解决系统日志因模板化格式导致难以被自动化分析和人工理解的问题。NLLog的核心思想是将解析后的日志模板确定性重写为“谁-做了什么-严重程度”（WHO-WHAT-SEVERITY）的自然语言句子，然后通过词频-逆文档频率（TF-IDF）加权进行池化，使用树集成（如随机森林）对会话进行分类，并利用TreeSHAP反向投影证据以辅助分析师审查。在Hadoop分布式文件系统（HDFS）和Blue Gene/L（BGL）数据集上的实验表明，NLLog超越了两种复现的匹配协议基线；在HDFS、BGL和AIT警报数据集上，NLLog在商用硬件上实现了低误报率，延迟适合安全运营中心（SOC）的初步分类。消融实验（覆盖度、稀疏vs密集、忠实性、对抗性测试）表明，回退充分性依赖于语料库；部署前的注册阶段覆盖度检查可以揭示需要改进的领域。可审计的确定性重写与轻量级密集编码相结合，为日志异常检测和分类提供了可衡量的表示层。该研究适合对日志分析、异常检测和可解释AI感兴趣的安全研究人员阅读。

💡 推荐理由: NLLog提供了一种轻量级、可解释的日志异常检测方法，通过将日志转换为自然语言句子降低分析门槛，适合SOC日常使用，同时保持低误报率和低延迟。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mohammad Hossein Gholamrezazadeh, AhmadReza Montazerolghaem

本文提出一个名为XAI FL-IDS的分布式入侵检测系统框架，旨在解决传统集中式IDS存在的两大局限：隐私泄露和缺乏可解释性。当前大多数IDS依赖集中式检测，要求IoT节点将原始数据发送至服务器，不仅增加网络开销，也无法保证数据隐私；同时，传统模型仅报告攻击与否，却不解释特征如何影响决策。作者首先通过联邦学习（FL）实现隐私保护：每个节点在本地训练数据，仅将更新参数（而非原始数据）上传至中央服务器，从而消除数据转移的隐私顾虑。其次，在本地节点和中央服务器两个层级的检测结果上，均使用SHAP（Shapley Additive Explanations）进行可解释性分析，提供决策过程的详细洞察。框架包含一个中央服务器和10个客户端，采用Edge-IIoTset数据集，并在客户端间均衡分布类别。每个客户端运行XGBoost模型。实验表明，该方法在入侵检测中表现稳健，准确率超过99%，有时可达100%。联邦学习的引入保证了每个本地节点网络信息的机密性。本文贡献在于将联邦学习与可解释AI有机结合，为分布式IDS提供了隐私保护与透明度兼具的解决方案。

💡 推荐理由: 该框架同时解决隐私和可解释性两个痛点，使IDS更适用于IoT等资源受限、数据敏感的场景，为安全运营提供可追溯的决策依据。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#explainable-ai

Achieving Interpretable DL-based Web Attack Detection through Malicious Payload Localization.

(EC)2: Event-Centric Explainability for Cybersecurity Through Multi-Agent LLM Investigations

Detection, Attribution, Narration: An End-to-End Pipeline for Explainable Money Mule Identification

Explaining Intrusion Alert Decisions of Deep Learning-based Network Intrusion Detection Systems for Security Analysts

An Explainable Agentic System for Detection of Conversational Scams with Summary-Based Memory

Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution.

A Deployment-Oriented Framework for Explainable AI-Assisted eBPF/XDP Mitigation at the IoT Edge

Sample-Efficient LLM-Based Detection of Malicious Web Server Logs with Forensically Explainable Reasoning

SHERPA: Explainable Robust Algorithms for Privacy-Preserved Federated Learning in Future Networks to Defend Against Data Poisoning Attacks.

Cognitive Threat Intelligence and Explainable Federated Security Analytics for distributed Infrastructure Systems

NLLog: Lightweight, Explainable SOC Anomaly Detection via Log-to-Language Rewriting

XAI FL-IDS: A Federated Learning and SHAP-Based Explainable Framework for Distributed Intrusion Detection Systems