推荐 3.5
Conf: 50%
该论文重新审视了基于概念模型(Concept-based Models, CMs)中信息泄漏的传统观点。CMs是一类深度神经网络,其预测基于与人类可理解概念(如“圆形”、“条纹”等)对齐的表示。过往研究通常认为,CMs会学习到泄漏概念无关信息的表示,这种泄漏被视为不可取的,应予以消除,因为它会导致模型不可解释。然而,本文作者指出,这一传统观点在两方面存在缺陷:首先,泄漏导致模型不可解释的证据往往不具决定性;其次,在现实世界中常见概念不完备(concept incompleteness)的约束下,完全消除泄漏会导致模型不实用。作者论证,在概念不完备成为常态的实际场景中,一定程度的泄漏对于构建准确且可干预(intervenable)的CMs是必要的。据此,他们提出了“良性泄漏”(benign leakage)的概念,并通过重新构建典型的CM训练目标,使得模型能够主动鼓励并利用这种良性泄漏,而不会牺牲预测准确性或干预能力。论文通过理论分析和实验验证,展示了所提方法在多个基准上的有效性。该研究为CMs的设计提供了新视角,有助于在保持可解释性的同时提升模型实用性。适合机器学习、可解释AI领域的研究者和从业者阅读。
💡 推荐理由: 颠覆了概念模型必须消除信息泄漏的固有认知,提出了良性泄漏的新范式,对设计既准确又可干预的现实CMs具有指导意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)