#adversarial-security 主题 - Cyber Security Daily Radar

👥 作者: Om Solanki, Lopamudra Praharaj, Deepti Gupta, Maanak Gupta

本文针对面向战场物联网（IoBT）任务控制的策略感知大语言模型检索增强生成（PA-LLM-RAG）框架，首次系统研究了知识库投毒攻击及其防御。作者提出了一种新颖的“查询无关语义检索投毒”（Query-Agnostic Semantic Retrieval Poisoning）攻击方法，该方法向IoBT知识库中注入精心构造的语义规则，无需知道运行时用户提示即可在所有操作员查询类型上获得高检索排名。实验表明，单条注入规则（投毒率仅1.6%）即可实现85%的LLM上下文污染，投毒率饱和点为7.7%，证明即使极小的知识库破坏也足以篡改任务决策。为应对此威胁，作者提出了CLD-KB（基于网络分层防御的知识库保护）框架，一种双重检测器异常检测方案，结合One-Class SVM边界检测和创新的“基于成员的类别扩散分析”（Member-Based Category Spread analysis），利用IoBT策略的三分类体系，在决策LLM之前识别被投毒的规则。CLD-KB在投毒检测和知识保留上显著优于DBSCAN、LOF、K-Means、孤立森林和One-Class SVM五种基线方法，每次任务仅增加7ms计算开销，证明其作为LLM驱动的IoBT任务系统中高效、可边缘部署的防御方案的有效性。该研究揭示了RAG系统在关键领域的独特安全漏洞，并提供了实用的防御思路。

💡 推荐理由: 首次系统研究面向RAG知识库的语义投毒攻击，揭示低投毒率即可实现高污染率的关键威胁，并提出轻量级可边缘部署的双重检测防御，对LLM在关键任务场景（如军事、医疗）的安全落地有重要警示意义。

🎯 建议动作: 纳入内部评估：建议AI安全团队在自研RAG系统或采购LLM服务时，测试知识库投毒攻击的影响，并评估CLD-KB防御的适用性。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Enoal Gesny, Eva Giboulot

本文针对生成式图像模型（特别是扩散模型）中的种子基水印技术，提出了一套从第一性原理出发的安全水印框架。当前的水印评估主要依赖经验实验，严重受限于具体的生成与反演模型架构，导致无法对方法的性能（尤其是安全性）进行严格结论，且缺乏统一的安全性定义。作者主张水印方案的有效性应通过彻底的理论分析来确立，为此提出了将模型依赖部分与水印系统的实际决策机制解耦的思想。基于该解耦，他们构建了一个正式的评估框架，涵盖安全性、鲁棒性和保真度三个维度，并通过一个特征曲面来精确比较不同水印系统在这三者之间的权衡，且该曲面独立于任何生成模型。在此框架下，作者提出了SSB（Secure Seed-Based）水印方法，该方法泛化了以往的种子基水印方案，能够通过调整特征曲面上的参数实现任意安全性-鲁棒性-保真度组合。本文为设计具有理论保证的现代水印系统开辟了道路，无需进行昂贵的经验评估即可获得性能保障。

💡 推荐理由: 为扩散模型水印提供了首个严格的理论评估框架，解决了现有方法依赖具体实验、缺乏安全定义的问题，对生成式AI内容溯源与防护具有基础性意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Shiqian Zhao, Chong Wang 0013, Yiming Li 0004, Yihao Huang 0001, Wenjie Qu 0001, Siew-Kei Lam, Yi Xie 0011, Kangjie Chen, Jie Zhang, Tianwei Zhang 0004

本文针对文本到图像（T2I）扩散模型（如DALL·E、Midjourney）中的提示词（prompt）窃取攻击展开研究。提示词是用户为生成高质量图像而精心设计的文本描述，具有知识产权价值，但在线展示作品时面临被窃取的风险。现有攻击方法依赖固定修饰词集和模型特定训练，泛化性差且效果有限。为此，作者提出Prometheus——一种无需训练、基于代理模型交互的搜索式提示词窃取攻击方法。核心创新有三：1）引入动态修饰词，利用NLP分析实时生成与目标图像更匹配的修饰词，作为静态修饰词的补充；2）设计上下文匹配算法对修饰词排序，缩小后续搜索空间；3）通过本地代理模型进行贪心搜索，根据反馈逐步优化提示词以提升重建保真度。实验证明，Prometheus在PromptBase、AIFrog等平台上对Midjourney、Leonardo.ai、DALL·E等不同模型均能成功提取提示词，攻击成功率提升25.0%，且对现有防御措施具有抗性，揭示了该攻击的严重性。本文适合AI安全研究者和防御工程师阅读，以理解提示词窃取威胁并设计相应防护。

💡 推荐理由: 提示词是T2I模型商业化的核心资产，本文揭示的新型攻击可大规模窃取创意作品背后的提示词，威胁创作生态与知识产权保护。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial-security

Knowledge Base Poisoning Attacks and Defense for Policy-Aware LLM-RAG Framework

Secure Seed-Based Multi-bit Watermarking for Diffusion Models from First Principles

Towards Effective Prompt Stealing Attack against Text-to-Image Diffusion Models.