#concept-based-models 主题 - Cyber Security Daily Radar

👥 作者: Mateo Espinosa Zarlenga

该论文重新审视了基于概念模型（Concept-based Models, CMs）中信息泄漏的传统观点。CMs是一类深度神经网络，其预测基于与人类可理解概念（如“圆形”、“条纹”等）对齐的表示。过往研究通常认为，CMs会学习到泄漏概念无关信息的表示，这种泄漏被视为不可取的，应予以消除，因为它会导致模型不可解释。然而，本文作者指出，这一传统观点在两方面存在缺陷：首先，泄漏导致模型不可解释的证据往往不具决定性；其次，在现实世界中常见概念不完备（concept incompleteness）的约束下，完全消除泄漏会导致模型不实用。作者论证，在概念不完备成为常态的实际场景中，一定程度的泄漏对于构建准确且可干预（intervenable）的CMs是必要的。据此，他们提出了“良性泄漏”（benign leakage）的概念，并通过重新构建典型的CM训练目标，使得模型能够主动鼓励并利用这种良性泄漏，而不会牺牲预测准确性或干预能力。论文通过理论分析和实验验证，展示了所提方法在多个基准上的有效性。该研究为CMs的设计提供了新视角，有助于在保持可解释性的同时提升模型实用性。适合机器学习、可解释AI领域的研究者和从业者阅读。

💡 推荐理由: 颠覆了概念模型必须消除信息泄漏的固有认知，提出了良性泄漏的新范式，对设计既准确又可干预的现实CMs具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#concept-based-models

In Defense of Information Leakage in Concept-based Models