#memorization

共收录 2 条相关安全情报。

← 返回所有主题
推荐 5.5
Conf: 50%
👥 作者: Matthieu Meeus, Anil Ramakrishna, Matthew Grange, Zheng Xu, Luca Melis

该研究探讨了代码语言模型中的功能性记忆(functional memorization)现象,即模型在生成代码时可能会复制训练数据中的功能逻辑,即使文本上不相似。现有工作主要基于文本重叠的审计指标来检测训练数据泄露,但代码具有功能等价而文本不同的特点。作者为Olmo-3-32B模型构建了一个反事实实验设置:比较一个中间训练版本(已暴露于目标代码)和一个预训练参考版本(未暴露)。向两个模型提供Python函数签名,并分别评估生成代码的文本相似性和功能相似性(使用LLM作为评判和基于执行的方法)。实验结果显示明确的功能性记忆证据,表明需要超越文本重叠的审计指标。该工作对代码生成模型的安全审计和数据隐私保护具有重要意义。

💡 推荐理由: 揭示了代码语言模型可能通过功能等价的方式泄露训练数据,现有文本重叠指标无法检测,对模型隐私审计提出新挑战。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yihan Wang, N. Asokan

本研究关注扩散语言模型(DLM)中的训练数据记忆与提取问题。以往对于大语言模型记忆性的研究几乎完全基于前缀条件提取,这适合自回归模型,但扩散语言模型可以在任意位置去噪被遮蔽的token,因此仅用前缀探测会低估训练数据提取的风险。为真实建模DLM中训练数据的可提取性,作者提出了"填充提取"(infilling extraction)协议,该协议由任意二元掩码参数化,涵盖前缀条件提取并考虑DLM的双向归纳偏差。在LLaDA-8B和Dream-7B模型上,针对五种提取模式、三种训练流程和三个语料库(涵盖逐字和部分泄露)进行了实验。结果显示,掩码几何形状控制着可提取性:边缘条件掩码提取的逐字序列比前缀条件掩码多三倍,且双向访问打开了自回归模型无法使用的通道。特别是,一个能够访问训练数据(其中个人可识别信息已被编辑)的现实攻击者,从DLM中提取已编辑电子邮件地址的召回率甚至高于从规模匹配的自回归模型中提取。解码的可调参数显著影响提取性能,而后续的监督微调阶段并未消除先前的记忆。本工作揭示了扩散语言模型在训练数据泄露方面的独特风险,强调了在部署前需评估此类模型的隐私安全性。

💡 推荐理由: 扩散语言模型因其双向去噪机制,训练数据记忆风险远超此前认知,传统前缀提取评估严重低估泄露程度,安全从业者需重新审视此类模型的隐私安全评估方法。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)