#data-minimization

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Robin Staab, Nikola Jovanovic 0001, Mislav Balunovic, Martin T. Vechev

该论文针对机器学习中的数据最小化(Data Minimization, DM)原则进行了系统研究。组织在训练和部署预测模型时,往往收集大量详细的客户数据,一旦发生数据泄露,将导致隐私暴露风险。政策制定者日益要求遵守数据最小化原则,即仅收集任务相关且必要的数据。然而,目前关于如何部署遵守DM的机器学习模型的研究甚少。本文提出了一种基于数据泛化的垂直数据最小化(Vertical DM, vDM)工作流,通过设计确保在模型训练和部署过程中不收集全分辨率客户数据,从而在发生泄露时减少攻击面,保护客户隐私。作者形式化并研究了在泛化过程中同时最大化数据效用和最小化经验隐私风险的问题,通过引入一组多样化的、与政策一致的对抗场景来量化隐私风险。最后,提出了多种基线vDM算法,以及一种特别有效的算法——隐私感知树(Privacy-aware Tree, PAT),该算法在多个设置下优于所有基线。作者计划将代码作为公开库发布,以推动机器学习中DM标准的建立。该工作为实际应用中DM原则的进一步探索和采用奠定了基础。

💡 推荐理由: 数据最小化是隐私保护的核心原则,但机器学习中缺乏系统性实现方案。本文提供了首个全面的垂直DM工作流和有效算法,可直接指导企业减少数据收集风险,具有政策合规价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Shafizur Rahman Seeam, Zhengxiong Li, Zhiyuan Yu, Yimin, Chen, Yidan Hu

本文提出PrivScope,一种针对混合本地-云端智能体系统的任务范围披露控制机制。在混合智能体系统中,本地代理会收集用户请求的上下文(包括持久工作状态)以增强任务完成度,但这也导致了过度披露问题——云端负载中包含了与当前任务无关的敏感信息。现有解决方案要么隔离工作流以限制跨工作流泄漏,要么应用通用去敏,但都无法针对本地组装的有效载荷进行智能推理。PrivScope作为受信任的设备端有效载荷管理器,位于本地与云端大语言模型之间,强制执行“任务范围披露”原则:敏感信息仅在必要且以最小披露形式发送到云端。其核心方法是:从组装的有效载荷中提取披露单元,将直接标识符和账户关联值保留在本地;其余单元通过云端必要性控制,确定哪些实际需要发送;必须发送到云端的单元会被抽象为任务所需的最不具体的表示。在三个商业云端大语言模型(GPT-4o-mini、Gemini 2.5 Flash等)上,使用100个医疗预约工作流进行实验,PrivScope将个人资料泄漏率从17.7%降至0.0%,重识别攻击成功率从64.3%降至23.1%,同时在所有测试模型上实现了最高的候选召回率,且任务成功率接近未保护基线。在五个本地骨干模型上增益保持一致,在商用硬件上仅增加数秒设备端延迟。

💡 推荐理由: 该研究直接针对混合智能体系统中敏感信息过度暴露的安全痛点,提出一种不依赖云端修改的轻量级设备端防护机制,对保护用户隐私和满足合规要求具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)