#defense-framework 主题 - Cyber Security Daily Radar

👥 作者: Puning Zhao, Zhikun Zhang 0001, Jiawei Dong, Jiafei Wu, Zhe Liu 0001, Shaowei Wang 0003, Yunjun Gao

本地差分隐私（LDP）协议容易受到操纵攻击，攻击者通过篡改本地数据或随机性来破坏统计估计的准确性。现有早期工作通过将每个样本转化为二元信号来限制攻击者能力，但这种方法在ε>1时导致严重的信息损失，牺牲了数据效用。本文提出了一种攻击无关的通用防御框架RobustLDP，旨在无需了解攻击者知识的情况下实现鲁棒估计。核心思想是：服务器向所有用户发送精心设计的预定义信息（例如一个公共随机种子），用户根据该信息结合自身数据生成响应，服务器再聚合反馈进行估计。通过这种方式，框架在保留信息与限制攻击者能力之间取得了更好的平衡。作者将RobustLDP实例化为频率估计和均值估计（在ℓ1和ℓ2支持上）两个基础任务，这些可作为更高级任务的构建模块。理论分析表明，对于所有可能的攻击，该方法都能提供一定的估计误差上界保证。实验在多个真实数据集上验证了RobustLDP的效用：与基线方法相比，在ε>1时，估计精度显著提升，且对操纵攻击的鲁棒性更强。本文是首个在攻击无关假设下同时实现高鲁棒性和高数据效用的LDP框架。

💡 推荐理由: 本地差分隐私广泛应用于用户数据分析，但现有协议易受操纵攻击。本文提出的攻击无关防御框架无需预先知道攻击类型即可保持鲁棒性，为LDP的实际安全部署提供了重要理论基础和实用方法。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Gulshan Saleem, Nisar Ahmed, Muhammad Imran Zaman, Ali Hassan

该论文针对检索增强生成（RAG）聊天机器人面临的提示注入攻击，特别是间接注入（通过污染知识库文档实现攻击），提出了一种三层防御框架。第一层（输入过滤层）使用基于规则的模式库和微调的语义异常分类器对用户输入进行筛查。第二层（上下文组装层）在执行上下文组装时，强制实施基于来源的指令层次结构，防止检索到的内容覆盖操作策略。第三层（输出审计层）在模型输出前，使用策略规则引擎和语义漂移检测器进行审核。此外，框架包含一个持续审计循环，聚合结构化日志并支持重新训练以适应新型攻击模式。该框架是模型无关的，作为中间件部署，无需修改底层LLM。在包含5,080个样本的测试集上，使用GPT-4o、Llama 3和Mistral 7B评估，攻击成功率（ASR）从71.4%降至11.3%，性能优于最佳单层基线27.3个百分点，优于已公开的护栏系统23.8个百分点，误报率仅4.8%，中位延迟开销61.2毫秒。消融实验证实三层提供互补保护，且组合效果超过各自贡献之和。

💡 推荐理由: 提示注入是LLM应用中最关键的漏洞（OWASP Top-1），而现有防御仅在单一阶段孤立防护。该论文提出了首个覆盖推理全管线的三层防御框架，有效降低了攻击成功率，为RAG系统的实际部署提供了可落地的安全方案。

🎯 建议动作: 建议内部评估该框架在自有RAG系统上的适用性，并参考其分层思想加固现有防御。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Yunhao Feng, Xiaohu Du, Xinhao Deng, Yifan Ding, Ming Wen, Yixu Wang, Yuxiang Xie, Baihui Zheng, Yingshui Tan, Yige Li, Yutao Wu, Kerui Cao, Wenke Huang, Yanming Guo, Xingjun Ma, Yu-Gang Jiang

计算机使用代理（Computer-use agents）将语言模型从文本生成扩展到与文件、终端、浏览器和外部工具的持续交互。这种范式转变带来了新的安全风险，因为恶意行为往往只有通过多步执行轨迹才能显现，而单步动作看似无害。现有安全检测方法依赖孤立提示或最终响应，难以捕捉这类隐蔽威胁。本文提出BraveGuard，一个自演化的防御框架，用于从开放世界威胁信号和真实代理轨迹中训练守卫模型。BraveGuard通过挖掘最新研究来源识别新兴风险与攻击模式，将其实例化为可执行的计算机使用任务，收集代理运行轨迹，并推导出轨迹级别的监督信号以训练守卫模型。当新威胁或验证失败出现时，该流水线可重复执行，形成自适应防御循环，而非静态的基准驱动训练过程。作者基于Qwen3-Guard和Llama-Guard等多种骨干模型实现了BraveGuard，并在轨迹级别的代理安全基准上评估。实验表明，BraveGuard在计算机使用轨迹上持续提升安全检测能力。在AgentHazard基准上，与现成守卫模型相比，平均守卫模型设置下的检测准确率从38.79%提升至82.38%。这些结果证明，基于开放世界威胁发现和真实代理执行的守卫监督能够超越固定分类法和合成提示级别数据，为应对不断演变的真实世界风险提供了可扩展的自适应防御路径。

💡 推荐理由: 计算机使用代理面临的多步执行安全风险难以被传统方法检测，BraveGuard通过自演化框架从开放世界威胁中学习轨迹级监督，显著提升了检测精度，为代理安全监控提供了实用且可扩展的防御新思路。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ayushi Sharma, Rosemary Agbozo, Santiago Torres-Arias, Zahra Ghodsi

机器学习系统面临着多样化的威胁，这些威胁会破坏模型的鲁棒性、隐私性和公平性。尽管已有许多防御方法被提出，但每个防御通常只孤立地解决单一风险。在实际部署中，需要将这些防御组合起来同时满足多个保障需求。然而，防御的组合过程复杂且尚未被充分理解，其对性能和安全的影响仍不明确。本文提出了Landseer，一个模块化框架，用于将机器学习防御集成到ML生命周期中，并系统地评估它们的组合效果。Landseer将防御封装为容器化模块，使得现有和新技术可以以最小的工作量插入。其评估引擎自动化了跨多个指标的实验，支持对防御进行单独和组合研究。在一项初步研究中，作者识别了35种最先进的机器学习防御，经过可复制性过滤后，使用Landseer的统一评估流程分析了它们的性能。研究结果揭示了跨防御家族的可复制性差距，并为集成多种防御的挑战和机遇提供了见解，为改进机器学习系统的可靠性奠定了基础。该论文适合机器学习安全研究人员、防御系统设计者以及希望理解防御组合权衡的从业者阅读。

💡 推荐理由: 该工作首次系统研究ML防御的组合问题，弥补了当前单个防御评估与真实部署需求之间的鸿沟，为构建更可靠的ML系统提供了方法论和工具。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#defense-framework

An Attack-Agnostic Defense Framework Against Manipulation Attacks Under Local Differential Privacy.

A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots

BraveGuard: From Open-World Threats to Safer Computer-Use Agents

Landseer: Exploring the Machine Learning Defense Landscape