#thompson-sampling

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Mohammadreza Riyazat, Eranga Ukwatta

本文提出 AdaPrivate-TS,一种结合了差分隐私与汤普森采样的上下文多臂赌博机算法。关键洞察在于,差分隐私噪声会以结构化方式膨胀后验协方差:向观测向量b添加高斯噪声N(0,σ²I)后,采样协方差变为v²A⁻¹ + σ²A⁻²,汤普森采样将此解释为不确定性增加而非纯粹的数据破坏,从而可以在不牺牲隐私的前提下更有效地进行探索。在事件级隐私(保护每次交互)和随机上下文的设定下,作者证明了隐私成本仅为O(√d log T / √ρ),对T呈对数增长,因为批处理下的并行组合分散了噪声。此外,论文还探讨了通过泊松子采样实现隐私放大,在严格隐私预算下可降低有效噪声。实验在合成数据和真实数据集(MovieLens、Jester)上进行,结果显示:(1)在ε∈[0.5,5]时,AdaPrivate-TS达到非隐私场景93%-99%的性能,比UCB基线提升0.5%-3.7%,在极端ε下通过自适应探索可提升高达18%;(2)隐私放大在低ε下额外带来2%-5%的性能增益;(3)在MovieLens和Jester上,AdaPrivate-TS在事件级基线方法中整体最优,在ε≥2时占据主导;(4)当使用DP-SVD私有特征时,汤普森采样相比UCB的优势扩大到+11%,证实了“噪声即不确定性”不仅限于奖励隐私。论文提供了交互式zCDP组合下的严格隐私证明,并通过收敛曲线、12次随机种子的置信区间以及DP-SVD特征消融实验进行了全面评估。本研究成果对设计隐私保护下的在线学习算法具有重要参考价值。

💡 推荐理由: 该研究首次系统性地分析了差分隐私噪声如何在汤普森采样中被视为不确定性而非噪声,为隐私保护下的在线学习提供了新的理论视角和实用算法。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)