#data-protection 主题 - Cyber Security Daily Radar

👥 作者: Peter Heger, Lech Nieroda, Roland Pabel, Christoph Stollwerk, Stefan Borowski, Kamil Tokmakov, Michael Commer, Martin Peifer, Stefan Wesner, Viktor Achter

传统高性能计算（HPC）系统架构以速度为核心，而高安全计算机系统通常需要牺牲速度来换取安全性。然而，生命科学等众多科学领域需要同时具备高性能和安全性，以便大规模处理敏感数据。本文提出了RAMSES（Research Accelerator for Modeling and Simulation with Enhanced Security），一个从底层设计的安全增强型HPC系统，旨在在强大的安全框架内提供高性能。RAMSES集成了AMD处理器的硬件级内存加密技术，并结合IBM Storage Scale和Thales CipherTrust管理器的最先进文件加密方案，构建了一个在整个数据生命周期（静态、传输、使用中）均实现持续加密的HPC平台，符合欧洲通用数据保护条例（GDPR）、ISO/IEC 27001认证和联邦信息处理标准（FIPS）等主要数据保护标准。此外，系统实现了高级操作系统加固、多层安全架构和强制性多因素认证，使HPC环境适应更高的安全需求。来自生物医学领域的基准测试结果表明，安全环境对性能的影响有限，证明了在保持系统一致性、灵活性和用户友好性的前提下，可以实现速度与安全这两个相互冲突要求的整合。本文适合HPC架构师、安全工程师以及对安全敏感数据处理感兴趣的研究人员阅读。

💡 推荐理由: RAMSES展示了如何在HPC环境中平衡高性能与强安全控制，为处理敏感数据的科学计算领域提供了可行的架构参考，有助于推动生命科学等领域的合规数据处理。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shantanu Sharma, Ethan Myers, Lorenzo De Carli, Ritwik Banerjee, Indrakshi Ray

本文指出当前数字隐私研究过度聚焦于欧盟通用数据保护条例（GDPR）等少数西方监管框架，忽视了其他地区用户的隐私关切、态度和问题，造成了显著的研究盲点。作者系统性地将多个国家/地区的数据保护法律中的异构法律要求，沿着数据生命周期进行归一化，形成统一的抽象模型，该模型可作为实施此类法规的基础。进一步，文章探讨了这些法律对不同利益相关方（用户、组织、政府）的影响。本研究旨在拓宽数字隐私研究社区的视角，并为开发跨国的技术隐私解决方案提供指导原则。

💡 推荐理由: 帮助安全从业者理解数据保护法规的全球异同，避免仅以GDPR为参考导致合规盲区。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jaewon Hur, Juheon Yi, Cheolwoo Myung, Sangyun Kim, Youngki Lee 0001, Byoungyoung Lee

DLBox 是一种新型的模型训练框架，旨在保护训练数据的机密性。在当前的机器学习训练过程中，攻击者可能通过内存转储或侧信道攻击窃取敏感数据。DLBox 通过采用加密内存和安全执行环境，在 CPU 和 GPU 上实现端到端的防护。它利用 Intel SGX 等可信执行环境（TEE）来隔离训练过程，并设计了高效的数据分片和加密策略以减少性能开销。实验表明，DLBox 在 CIFAR-10 和 ImageNet 等数据集上训练时，相比基线仅引入 2-5% 的性能损失，同时有效防御了数据提取攻击。该框架适用于任何需要保护训练数据隐私的场景，如医疗、金融等领域。

💡 推荐理由: DLBox 提供了实用的训练数据保护方案，解决了机器学习中数据隐私与性能平衡的痛点。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chengshuai Zhao, Zhen Tan, Dawei Li, Zhiyuan Yu, Huan Liu

该论文针对大视觉语言模型（LVLM）在多模态网页数据上遭受的未授权爬取和训练问题，提出了一种名为MMGuard的主动防御方法。现有对策如机器遗忘和水印均属于事后处理，无法在知识产权侵犯发生前进行保护。MMGuard通过生成难以学习的样本（unlearnable examples），向多模态数据注入人眼不可察觉的扰动。该扰动利用LVLM的学习动态，最小化训练损失，从而创建优化捷径，使模型在训练时过度拟合噪声，而在推理时因扰动消失导致下游任务性能严重下降。为加强防御，MMGuard进一步引入跨模态绑定破坏机制，策略性地转移LVLM的注意力，强制噪声与训练目标之间产生虚假相关性，并从理论上证明了其有效性。此外，采用集成学习策略增强跨模型迁移能力，使扰动在不同LVLM架构间具有通用性。在9个开源LVLM和6个数据集上的实验表明，MMGuard在白盒、灰盒和黑盒威胁模型下均能提供有效、隐蔽且鲁棒的防护，证明其在主动防御未授权微调方面具有机制性优势。该研究适合关注数据版权保护、对抗性机器学习和多模态模型安全的研究人员与从业者阅读。

💡 推荐理由: 数据所有者面临多模态数据被未授权微调的严重风险，MMGuard提供了首个主动防御方案，可在侵权发生前阻止模型从数据中学习，对版权保护和隐私维护具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Scott Jordan 0001, Yoshimichi Nakatsuka, Ercan Ozturk, Andrew Paverd, Gene Tsudik

本文提出了VICEROY，一个隐私保护且可扩展的框架，用于为无账户消费者生成数据所有权证明，从而支持可验证的消费者请求。背景是GDPR和CCPA等数据保护法规赋予消费者访问、修改或删除其个人数据的权利，但现有验证机制对有账户消费者（可通过密码认证）便捷，而对无账户消费者则要求提供政府ID、账单等敏感信息，既侵犯隐私又增加服务提供商负担。VICEROY基于现有Web技术（如浏览器存储、令牌等），允许无账户消费者与服务提供商交互，并在后续以隐私保护方式证明自己是同一人，而无需暴露真实身份。核心方法包括：在首次交互时创建匿名凭证（如浏览器cookie或本地存储的加密令牌），之后请求时只需证明持有该凭证即可。框架设计强调安全/隐私、可部署性和可用性，并通过实验评估了其实用性。主要贡献：首次为无账户消费者的数据权利请求提供隐私友好的认证方案；最小化双方改动（消费者只需浏览器，服务商需集成轻量API）；严格的形式化安全分析。适合隐私合规官、安全研究员、Web服务开发者和法律科技从业者阅读。

💡 推荐理由: 现行无账户消费者请求验证方式严重侵犯隐私且成本高，VICEROY提出了一种可行的隐私保护替代方案，有助于合规落地并减少消费者信息泄露风险。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#data-protection

RAMSES: Secure high-performance computing for sensitive data

Local Privacy Laws in a Globalized World

DLBox: New Model Training Framework for Protecting Training Data.

To See is Not to Learn: Protecting Multimodal Data from Unauthorized Fine-Tuning of Large Vision-Language Model

VICEROY: GDPR-/CCPA-compliant Enforcement of Verifiable Accountless Consumer Requests.