#cs.DB 主题 - Cyber Security Daily Radar

👥 作者: Rasmus Pagh, Sia Sejer

本文研究持续观察下私有化发布k维向量更新的问题。初始向量为零向量，在时间点t_i上通过添加x^{(i)}进行更新，其中t_i∈[T]，x^{(i)}在k维单位球B_k内。两个数据集被认为是相邻的，如果它们的对称差大小不超过1。持续发布需要在每个时间步t=1,...,T输出累加和A^{(t)} = ∑_{i: t_i ≤ t} x^{(i)}。经典方法可以O(kT)时间、polylog(T)噪声幅度释放近似值。本文考虑每个时间步仅需发布A^{(t)}的子集，提出一种快速高斯机制，能够在常数时间内采样噪声向量中任意指定条目，同时精确复制二叉树机制下高斯噪声的分布。该改进基于布朗桥构建的新数据结构，突破了已知O(log T)时间界限。文章展示了两个数据管理应用：1) 正交范围计数查询的动态数据结构，在隐私/准确性/空间权衡上优于先前结构；2) 连接大小估计，同时改进了高概率界。本文适合对差分隐私、数据流算法和数据结构设计感兴趣的研究者。

💡 推荐理由: 提出常数时间噪声采样方法，显著提升持续观察下差分隐私机制的效率，有助于构建更实用的隐私保护数据发布系统。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kuncan Wang, Ziting Wang, Peizhuo Lv, Haoyang Li, Guoliang Li, Gao Cong, Wei Dong

本文对LLM驱动的数据代理系统（Data Agents）进行了系统的安全研究。数据代理将LLM推理与关系数据访问、可执行分析工具和多步工作流编排相结合，日益成为企业分析的核心，但也引入了新的安全漏洞组合。作者首先构建了一个分层漏洞框架，在解释层、执行层和策略层识别出八种数据代理特有的安全风险。其次，提出了一种基于对手目标、战术和技术的攻击分类法，涵盖三个目标、七种战术和十四种技术，并设计了一个基于真实数据库模式、由LLM驱动的载荷生成流水线。最后，在六个系统上（包括四个开源数据代理和两个商业云分析服务）进行了实验评估，揭示了当前系统中的严重安全漏洞，并总结出四项关键发现。该研究填补了数据库安全与通用LLM代理安全交叉领域的空白。

💡 推荐理由: 数据代理在企业中应用越来越广泛，但安全研究不足。本文系统揭示了其特有漏洞，对开发者和安全从业者具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Prashant Kumar Pathak

该论文提出了一种需求驱动的云安全态势管理（CSPM）漏洞检测架构，旨在减少从漏洞披露到客户系统具备检测能力之间的关键路径延迟。传统CSPM依赖供应商集中维护和分发规则集，更新节奏受限于发布周期（数小时至数天），且针对包含配置谓词的丰富检测规则需要额外的人工编写时间。论文提出的架构不再由供应商分发规则集，而是在客户租户内持续从公共源（如CVE目录）与实时资产图的交集动态衍生规则：当目录条目与适用资产同时存在时规则产生，当任一输入不再支持时规则消失。这种双向推导既响应新目录条目也响应新资产，利用了目录条目的完整结构化字段（不仅限于受影响软件字符串）。实时规则集的规模受限于环境多样性而非目录广度。论文详细阐述了威胁模型、架构设计、形式化语义及等价定理、复杂度分析、工作示例和评估方法。主要贡献在于架构性转变及其带来的延迟和资源影响，规则正确性和告警优先级排序不在讨论范围内。该研究适合云安全架构师、CSPM产品设计者和安全运维研究人员阅读，以理解一种消除人工规则编写环节的自动化检测思路。

💡 推荐理由: 该架构直击传统CSPM中规则分发延迟的痛点，通过将规则生成移至客户侧且完全自动化，有望显著缩短从CVE披露到资产检测的响应窗口，提升云环境安全防护的实时性。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Andrew Cascio, KinChin Tong, Daniel Kifer, Zeyu Ding, Danfeng Zhang

该论文提出 DP4SQL，一个支持灵活隐私策略的差分隐私 SQL 系统。现有差分隐私 SQL 系统仅支持固定的隐私策略，例如所有表都必须保护记录存在性或内容，无法处理混合隐私需求（如部分公开列、不同字段不同保护级别）。DP4SQL 允许数据管理者自定义每张表、每个字段的可否认性要求，避免“一刀切”策略导致的过度保护或噪声注入不足。系统通过引入声明式隐私策略语言和新的查询稳定性计算规则，自动适配不同隐私需求下的噪声量。实验表明，在真实数据集上，DP4SQL 相比现有系统可在满足差异化隐私要求的同时，显著降低查询答案的噪声。该工作适用于需要精细隐私控制的数据库场景，如医疗、金融等多表关联数据发布。

💡 推荐理由: 解决了现有差分隐私 SQL 系统缺乏隐私策略灵活性的痛点，使数据管理者能根据实际需求平衡隐私与效用。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Dimitrios Stavrakakis, Masanori Misono, Julian Pritzi, Harshavardhan Unnibhavi, Nuno Santos, Pramod Bhatotia

论文提出 GDPRuler，一种用于不可信云环境中的键值存储（KVS）的可验证 GDPR 合规中间件系统。背景：GDPR等隐私法规对个人数据的存储、处理和审计提出严格要求，而KVS简单数据模型和不可信云部署使合规极具挑战。现有方案需侵入式代码修改、性能开销高或忽略合规机制本身的完整性。核心方法：GDPRuler 在机密虚拟机（CVM）内运行可信 GDPR 监视器，无需修改KVS代码。监视器强制执行GDPR策略、管理合规元数据、维护防篡改审计日志。声明式策略语言将核心GDPR义务转化为可执行的运行时规则。为提升效率，GDPRuler 将元数据紧凑编码到KV记录中，为GDPR特定查询建立专用元数据索引，仅以空间高效格式记录合规相关事件。实现：作为透明代理支持未修改的Redis和RocksDB。评估：使用YCSB和GDPR启发的工作负载，GDPRuler 开销低：吞吐量约为原生KVS的61%，其中CVM环境贡献28%-32%；元数据存储开销低于20%；GDPR查询通过元数据索引获得13-182倍加速。贡献：通过将可验证策略嵌入可信中间件层，为不可信云基础设施上的KVS提供了实现GDPR合规的实用路径。

💡 推荐理由: 为云服务提供商和用户提供了一种无需修改KVS代码即可实现GDPR合规的可行方案，对隐私法规遵从具有实际指导意义，尤其适合处理敏感数据的在线服务。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chengliang Liu, Liangbo Ning, Yujuan Ding, Wenqi Fan

该论文研究了检索增强生成（RAG）增强的大型语言模型（LLM）系统面临的推理成本攻击（ICA）问题。RAG系统通过多阶段流水线动态检索并合成外部知识，虽然提升了性能，但也带来了高昂的推理成本。现有ICA攻击通常假设可以直接操纵提示，这在实践中难以实现。作者认为，通过投毒外部知识库（如互联网上的网页知识）是一种更可行且更具威胁的攻击方式。为此，他们提出了一种新的攻击范式——检索增强推理成本攻击（RA-ICA），通过向外部知识语料库注入恶意文档来大幅增加RAG系统的推理计算成本。为实现该攻击，设计了CREEP（Computational Resource Exhaustion via External Poisoning）框架，该框架利用LLM代理自动生成既在语义上与查询相关、又能导致推理阶段token消耗异常增加的恶意文档。为了提升攻击效果，还提出了一种新的强化学习算法MA-GRPO（Memory-Augmented Group Relative Policy Optimization），通过从历史最优对抗文档的动态记忆中学习来微调攻击代理。在三个真实数据集上的大量实验表明，RA-ICA能够将token消耗提升高达13.12倍，成功率超过90%，同时不损害生成答案的完整性。该研究揭示了RAG系统在推理成本方面的新安全漏洞，对部署RAG服务的组织具有重要警示意义。

💡 推荐理由: 该研究揭示了RAG系统在推理成本方面存在严重安全漏洞，攻击者可通过投毒知识库以极低成本大幅增加服务提供方的计算开销，可能导致服务降级或经济损失，对依赖RAG的LLM应用构成实际威胁。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Thomas Humphries, Zinan Lin, Sergey Yekhanin

本研究针对欧氏空间中差分隐私（DP）k-均值聚类问题展开。现有解决方案直接对原始数据进行加和，导致敏感度与数据域的大小成正比。本文提出PE-means方法，将私有进化（Private Evolution, PE）算法（一种在合成数据生成中日益流行的方法）扩展到k-均值聚类任务。PE方法的核心优势在于，它仅需计算一个具有恒定敏感度的私有直方图来指导进化过程。PE-means在PE的基础上引入了专门用于聚类的新进化算子，以及其他具有独立意义的算法改进。实验结果表明，与现有最优基线相比，PE-means平均降低了20%的聚类损失。该工作为差分隐私聚类提供了新的思路，尤其适用于数据隐私要求高且需要准确聚类结果的场景。

💡 推荐理由: 差分隐私k-均值聚类是保护用户数据隐私的关键技术，现有方法敏感度高导致噪声过大。PE-means通过恒定敏感度的直方图计算显著降低噪声，提升聚类实用性，对隐私保护机器学习领域有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Joydeep Chandra

该论文提出了CHRONOS，一种针对时态知识图谱数据市场的三层架构，旨在解决静态设计中的三个耦合失效问题：陈旧混合索引导致召回率下降、静态Shapley定价在分布偏移后价值误分配、未协调的代理过度消耗共享差分隐私预算。第一层采用神经ODE时间衰减来更新索引边，提供每查询预期召回损失界Big-O(Pq λ Δt)，并通过单调包络保证将边界松弛降至观测损失的1.8-3.2倍。第二层将Shapley估值基于检测到的变化点进行条件调整，并在噪声下提供有限样本误差保证。第三层使用EXP3-IX算法实现Big-O(√(T log T))遗憾界，同时通过矩会计强制执行ε、δ差分隐私。CHRONOS每个epoch发布一个通过高斯机制私有化的亲和矩阵；所有检索和排名均为后处理，不增加额外隐私成本。论文提供了多epoch结算、500卖家的可扩展性分析以及与加速基线的比较。在四个基准上，CHRONOS在10%召回率下达到0.937召回率、每秒2.74次查询、161 ms延迟，在zCDP组合下总ε为4.25，δ=10^{-6}。结果表明这是一个有竞争力的操作点。局限性在于此隐私水平下发布的估值仍受噪声主导；效用主要来自低敏感度统计驱动的公共索引路由和自适应调度。

💡 推荐理由: 该研究面向数据市场中多代理协调与差分隐私的交叉问题，为安全从业者提供了如何平衡隐私、效用与性能的新思路，特别是对涉及敏感知识图谱的共享数据场景具有参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Wei Wang, Burns Smith, Kenny Leftin

本文实证研究了在Intel SGX2安全区内运行Arrow-native DataFrame引擎Polars的性能特性。作者使用Gramine作为LibOS，在TPC-H SF30基准测试集（约22-73 GB）和Azure Blob Storage环境下，测量了端到端、仅查询和表加载三种性能开销。实验发现，端到端开销相对稳定在1.49-1.56倍，但分解后显示：仅查询开销从1.51-1.52倍下降至1.43-1.44倍，而表加载开销则从2.27倍上升至4.07倍，说明数据摄入是主要瓶颈。查询级分析显示，中位数SGX减速为1.45倍，最大2.57倍，部分查询因状态性EPC压力出现运行时间剧烈波动。此外，比较了Polars的惰性（lazy）与急切（eager）两种API，惰性执行整体快2.25-2.27倍，而急切执行在41 GB及以上时因内存不足失败。与近期DuckDB-SGX2研究对比，结果表明SGX2支持Arrow-native分析处理的额外开销与SQL引擎相当，但加载路径放大和API级优化是影响端到端性能的主要因素。该研究为机密分析工作负载在TEE中的部署提供了定量参考。

💡 推荐理由: 该研究首次量化了现代Arrow-native数据框架Polars在Intel SGX2中的性能开销，揭示了表加载和API选择的关键影响，为机密数据分析场景的工程优化提供实证依据。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Anant Utgikar, S. Sudarshan

本文提出 PROTECT-DB，一种基于拜占庭容错（BFT）复制状态机的方法，用于保护数据库免受破坏，特别是针对攻击者篡改数据库状态的情况。研究背景是组织数据的安全至关重要，而传统备份和审计方法存在检测延迟和恢复效率低的问题。PROTECT-DB 建立在确定性扩展的 PostgreSQL 之上，每个副本独立地执行记录在共享日志（或区块链）中的事务，从而确保所有副本状态一致。系统设计强调高效快速的破坏检测，并支持在事务执行的同时进行快速修复。作者通过性能实验证明了该方法的效率与实用性，显示其在实际数据库环境中的可行性。本文的主要贡献在于将 BFT 复制状态机方法实用化，为数据库提供了一种可抵御拜占庭故障（包括恶意攻击）的保护机制。适合数据库管理员、安全架构师及对高可用和数据完整性感兴趣的读者阅读。

💡 推荐理由: 该研究为数据库在遭受恶意篡改时提供了一种实时检测与恢复的实用方案，显著提升组织应对数据完整性威胁的能力。

🎯 建议动作: 研究跟进，评估在关键数据库系统中部署 BFT 复制状态机的可行性与性能开销

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Abtin Mahyar, Masoumeh Shafieinejad, Yuhan Liu, Xi He

该论文研究了针对表格扩散模型的成员推断攻击（Membership Inference Attack, MIA）。扩散模型在合成表格数据方面表现出色，常被用于共享敏感记录，但其隐私保护能力受到质疑。现有成员推断攻击通常假设单表设置，忽略了真实敏感数据中的多表关系结构。论文指出，在多表场景下评估隐私风险的核心挑战在于如何利用与目标表相关联的辅助信息（如其父表）。然而，在攻击推理时，攻击者只能观察到目标表中目标记录的属性值。为此，作者提出了FERMI（FEature-mapping for Relational Membership Inference）方法，通过将单表特征与关系成员信号相结合来解决这一差距。FERMI 首先在训练阶段利用辅助关系表学习一个特征映射，将多表关系转化为单表特征上的增强信号；在推理时仅需目标记录的属性值即可进行成员推断。实验基于三种表格扩散架构（如 CTGAN、TableDiffusion 等）和三个真实关系数据集（如 IMDB、Airbnb 等），评估了白盒和黑盒设置下的攻击性能。结果显示，FERMI 在假阳性率（FPR）为0.1时，真阳性率（TPR）在白盒设置下比单表基线提升高达53%，在黑盒设置下提升22%。论文的主要贡献在于首次将关系结构引入表格扩散模型的成员推断攻击，并提出了有效的特征映射方法，显著提高了攻击效果。该研究提醒数据发布者：即使在推理时仅释放单表数据，多表关系在训练阶段的存在仍可能被攻击者利用，从而加剧隐私泄露风险。适合从事数据隐私、机器学习安全的研究人员以及使用合成数据发布敏感信息的组织阅读。

💡 推荐理由: 揭示了表格扩散模型在多表关系场景中未被重视的隐私泄露渠道，为数据发布者评估合成数据的成员隐私风险提供了新视角，具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pranay Mundra, Adam Sealfon, Ziteng Sun, Quanquan C. Liu

本文研究在线差分隐私（DP）线性查询流回答问题，针对数据库工作负载中查询流高度可预测的特点（即重复任务和模板主导，即使到达顺序未知），提出了一种学习增强型差分隐私算法LAPRAS。核心思想是利用预测来指导隐私预算分配：假设存在一个预言机，输出可能出现在流中的查询预测集，然后对预测查询使用离线最优的矩阵机制（Matrix Mechanism）在其对应的全局敏感度下进行回答，而对未预测到的查询则从剩余预算中在线回答。为了在未知数量的未预测查询之间合理分配隐私支出，论文提出了一种平滑分配（Smooth Allocation）方法，该方法通过前T=Θ(log²S)个未预测查询形成无偏停止时间估计，并持续重新校准每个查询的支出。实验结果显示，在两个真实数据集上，LAPRAS实现了预期的一致性与鲁棒性平衡：当预测与实际查询重叠度高时，达到接近离线最优的效用；重叠度低时，性能优雅地退化为基线水平。本文主要贡献在于将预测引入在线DP查询回答，同时保证了鲁棒性，并提出了理论保证的新分配机制。适合对差分隐私、数据库安全和学习增强算法感兴趣的研究人员阅读。

💡 推荐理由: 本文提出了一种新颖的学习增强型DP查询回答框架，能够在隐私预算有限的情况下显著提升效用，同时保持对预测错误的鲁棒性。对于实际数据库系统中的隐私保护部署具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#cs.DB

A Fast Gaussian Mechanism under Continual Observation, with Applications

Data Agents Under Attack: Vulnerabilities in LLM-Driven Analytical Systems

Demand-Driven Vulnerability Detection for Cloud Security Posture Management: Removing Human Rule Authoring from the Disclosure-to-Protection Critical Path

DP4SQL: Differentially Private SQL with Flexible Privacy Policies

Policy-Compliant Cloud Storage Systems

Inference Cost Attacks for Retrieval-Augmented Large Language Models

PE-means: Improved Differentially Private $k$-means Clustering through Private Evolution

CHRONOS: Temporally-Aware Multi-Agent Coordination for Evolving Data Marketplaces

Polars inside Intel SGX2 Enclaves: An Empirical Study of Confidential Analytical Query Processing

PROTECT-DB: Protecting Data using Replicated State Machines: Efficient Corruption Detection & Recovery

FERMI: Exploiting Relations for Membership Inference Against Tabular Diffusion Models

LAPRAS : Learning-Augmented PRivate Answering for linear query Streams