#property-inference

共收录 1 条相关安全情报。

← 返回所有主题
推荐 5.5
Conf: 50%
👥 作者: Pengrun Huang, Chhavi Yadav, Ruihan Wu, Kamalika Chaudhuri

本文研究了大型语言模型(LLM)在领域特定数据集上微调时面临的数据集属性泄露风险。近期研究表明,通过属性推断攻击(property inference attacks),攻击者能够有效提取模型训练数据集中的敏感属性(如数据集的整体分布特征),从而构成保密性威胁。现有防御方法主要依赖于修改训练数据分布,这需要访问原始数据并重新训练模型,限制了其在数据不可用或模型已部署场景下的适用性。本文提出基于对齐(alignment)的防御方法,通过后训练对齐(post-training alignment)重塑模型输出分布,使其朝向目标属性比例,而无需修改训练数据或重新训练。具体地,作者将两种广泛使用的基于人类反馈的强化学习(RLHF)框架——直接偏好优化(DPO)和组相对策略优化(GRPO)——适配为防御方法:DPO通过构造偏好对(将属性比例正确的输出作为偏好样本),GRPO通过定义特定奖励函数来惩罚属性泄露。综合实验表明,基于对齐的防御能有效缓解属性推断攻击,同时在模型效用与隐私保护之间取得良好平衡。本文的主要贡献在于首次将对齐技术应用于防御属性推断攻击,提供了无需数据访问的轻量级解决方案,对保护微调数据的隐私具有重要实践意义。适合关注LLM隐私保护、对抗性攻击防御的研究人员和工程师阅读。

💡 推荐理由: 为LLM微调场景下的数据集属性泄露问题提供了一种无需重新训练、无需原始数据即可部署的防御方案,填补了现有防御在数据不可用时的空白。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.4)