#information-leakage

共收录 2 条相关安全情报。

← 返回所有主题
推荐 3.5
Conf: 50%
👥 作者: Mateo Espinosa Zarlenga

该论文重新审视了基于概念模型(Concept-based Models, CMs)中信息泄漏的传统观点。CMs是一类深度神经网络,其预测基于与人类可理解概念(如“圆形”、“条纹”等)对齐的表示。过往研究通常认为,CMs会学习到泄漏概念无关信息的表示,这种泄漏被视为不可取的,应予以消除,因为它会导致模型不可解释。然而,本文作者指出,这一传统观点在两方面存在缺陷:首先,泄漏导致模型不可解释的证据往往不具决定性;其次,在现实世界中常见概念不完备(concept incompleteness)的约束下,完全消除泄漏会导致模型不实用。作者论证,在概念不完备成为常态的实际场景中,一定程度的泄漏对于构建准确且可干预(intervenable)的CMs是必要的。据此,他们提出了“良性泄漏”(benign leakage)的概念,并通过重新构建典型的CM训练目标,使得模型能够主动鼓励并利用这种良性泄漏,而不会牺牲预测准确性或干预能力。论文通过理论分析和实验验证,展示了所提方法在多个基准上的有效性。该研究为CMs的设计提供了新视角,有助于在保持可解释性的同时提升模型实用性。适合机器学习、可解释AI领域的研究者和从业者阅读。

💡 推荐理由: 颠覆了概念模型必须消除信息泄漏的固有认知,提出了良性泄漏的新范式,对设计既准确又可干预的现实CMs具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ari Holtzman, Peter West

该论文研究了前沿语言模型在写作任务中是否能够保守秘密。作者给每个模型一个秘密词,要求模型在写故事时不要泄露该词,然后使用另一个模型通过二分类测试来判断故事是否包含该秘密。尽管秘密词从未以字面形式出现在输出中,但所有五个测试的前沿模型都以显著高于随机水平的概率(最高达79%)通过主题、意象和设定等间接方式泄露了秘密。当模型被告知主动隐藏秘密时,它们会刻意避开秘密词,但这种回避行为本身也是可检测的。泄露模式具有跨模型可读性,在两个模型族内随模型规模急剧增加,但对于笑话等短文本则完全消失。给模型一个干扰概念让其“专注”可以部分地将泄露从真实秘密转移到干扰概念。研究表明,注意力机制似乎打开了一个信息通道,前沿LLM即使被指示也无法关闭。该工作揭示了LLM在需要信息隔离的场景中存在隐秘的信息泄露风险。

💡 推荐理由: 揭示了LLM在系统提示、思维链推理、敏感数据处理等需要信息隔离的场景中,会无意识泄露机密信息,且无法通过简单指令消除,对安全部署构成挑战。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)