#concept-bottleneck 主题 - Cyber Security Daily Radar

👥 作者: Aditya Sridhar

概念瓶颈模型（CBM）是可解释机器学习的重要方法，通过显式的概念激活提供人类可理解的中间表示。然而，这种可解释性引入了一个此前未被探索的攻击面：概念瓶颈层本身。本文首次系统性地研究了CBM在概念层面的对抗性脆弱性，发现针对输入像素的微小、定向扰动可通过操纵语义表示导致灾难性的分类错误。作者建立了一个严格的理论框架来量化概念空间的鲁棒性，提出了新的度量标准，揭示了这些架构的脆弱性景观。在CUB-200-2011数据集上的广泛分析表明，标准CBM对概念级操纵表现出严重的脆弱性。为应对这一关键弱点，作者引入了SPECTRA（基于语义扰动的概念训练以增强鲁棒性），这是一种原则性的稳定性正则化防御。SPECTRA有效地强化了语义表示空间，将成功攻击所需的最小扰动范数从0.46提高到超过4200，使得定向概念操纵在计算上不可行。此外，SPECTRA将基线分类准确率保持在2.2%以内。通过将概念级攻击确立为一个根本不同的威胁模型，这项工作在可解释机器学习与对抗鲁棒性的交叉领域开辟了一个新的研究前沿。

💡 推荐理由: 首次揭示可解释CBM自身的高危攻击面：通过微小像素扰动操纵中间概念层即可导致分类失效，威胁依赖CBM的安全关键应用（如医疗影像、自动驾驶）。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#concept-bottleneck

When Interpretability Becomes a Liability: Adversarial Attacks on CBM Concept Layers