#llm-alignment

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Fengyu Gao, Jing Yang

本文提出 DPPrefSyn,一种用于生成差分隐私(DP)合成偏好数据的新算法,旨在保护大语言模型(LLM)对齐过程中的隐私。在偏好对齐的后训练阶段,使用真实人类偏好数据可能泄露敏感的用户提示和判断。DPPrefSyn 基于 Bradley-Terry 偏好模型和成对偏好数据的内在几何结构,首先从私有数据中学习具有严格差分隐私保证的潜在偏好模型,然后利用该模型与公共提示生成高质量的合成偏好数据。该方法通过利用每簇奖励模型的共享线性结构来有效捕获私有数据中的异质人类偏好,并使用差分隐私主成分分析(DP-PCA)提高学习准确性。大量实验表明,DPPrefSyn 在强 DP 保证下实现了有竞争力的对齐性能。这是首个生成 DP 合成偏好数据用于 LLM 对齐的工作,代码已开源。

💡 推荐理由: LLM 对齐依赖人类偏好数据,但隐私问题日益突出。本文第一个提出差分隐私合成偏好数据方法,为隐私保护对齐提供了可行方案。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)