#cs.IR

共收录 22 条相关安全情报。

← 返回所有主题
👥 作者: Samuel Witt, Hassan Habibi Gharakheili

该论文针对物联网设备准确识别这一关键安全问题,提出了一种基于制造商使用描述(MUD)配置文件的语义识别方法。现有方法通常从数据包或流记录中学习设备签名,但这些低层通信观测的流量模式会随部署环境、软件版本和用户交互而变化,导致识别鲁棒性不足。MUD配置文件通过访问控制条目(ACE)描述设备行为,每个ACE包含协议、端点、方向和端口语义,构成行为原语。论文贡献包括三个方面:第一,利用28个公开MUD配置文件中的1023个ACE实例,构建了紧凑行为文本的ACE级语义表示,并分析其几何特性。实验表明,ACE级表示比整体配置文件嵌入更有效地保留设备级行为区分,且经过白化校准后仍然有效。第二,在受控运行时变化下(包括未见ACE、主机名漂移、部分运行时观测)评估语义ACE匹配性能。精确ACE匹配在规范MUD重叠率高时表现良好,但重叠稀疏或消失时性能急剧下降;而语义ACE匹配能在这些条件下保持有用的识别证据。第三,在包含超过80万条观测流量的真实IoT流量轨迹上评估。结果表明,当存在稳定重叠时精确匹配最强,但在观测早期语义匹配提供更强的识别证据,通常能将正确设备保留在最高候选之中,并在稀疏重叠的运行时流量下保持有效性。该研究为IoT设备识别提供了不依赖流量模式变化的语义级解决方案,特别适用于零日设备或动态环境。

💡 推荐理由: IoT设备准确识别是安全管理和策略执行的基础,现有方法易受环境变化影响。本文提出的语义ACE匹配方法在观测早期和稀疏重叠场景下仍保持鲁棒,为实际部署中的设备识别提供了新的、更可靠的途径,尤其适合MUD策略生效前的初期识别。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Samuel Ndichu, Tao Ban, Seiichi Ozawa, Takeshi Takahashi, Daisuke Inoue

本文提出了一种名为NLLog(Natural-Language Log)的轻量级日志异常检测管道,旨在解决系统日志因模板化格式导致难以被自动化分析和人工理解的问题。NLLog的核心思想是将解析后的日志模板确定性重写为“谁-做了什么-严重程度”(WHO-WHAT-SEVERITY)的自然语言句子,然后通过词频-逆文档频率(TF-IDF)加权进行池化,使用树集成(如随机森林)对会话进行分类,并利用TreeSHAP反向投影证据以辅助分析师审查。在Hadoop分布式文件系统(HDFS)和Blue Gene/L(BGL)数据集上的实验表明,NLLog超越了两种复现的匹配协议基线;在HDFS、BGL和AIT警报数据集上,NLLog在商用硬件上实现了低误报率,延迟适合安全运营中心(SOC)的初步分类。消融实验(覆盖度、稀疏vs密集、忠实性、对抗性测试)表明,回退充分性依赖于语料库;部署前的注册阶段覆盖度检查可以揭示需要改进的领域。可审计的确定性重写与轻量级密集编码相结合,为日志异常检测和分类提供了可衡量的表示层。该研究适合对日志分析、异常检测和可解释AI感兴趣的安全研究人员阅读。

💡 推荐理由: NLLog提供了一种轻量级、可解释的日志异常检测方法,通过将日志转换为自然语言句子降低分析门槛,适合SOC日常使用,同时保持低误报率和低延迟。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Saroj Mishra

该论文聚焦于多步智能检索增强生成(agentic RAG)管道中的级联幻觉问题——早期步骤引入的错误会在后续推理步骤中传播并放大,导致最终输出看似自信但事实错误。现有的幻觉检测机制(如输出级检测器)系统性忽略此故障,因为它源自跨步骤的累积效应。作者首先形式化定义了级联幻觉,提出四种级联模式分类:直接继承、语义偏移、置信度漂移和复合放大。然后引入CHARM(级联幻觉感知解析与缓解)框架,这是一个可插拔的架构,包括四个组件:阶段级事实验证、跨阶段一致性跟踪、置信度传播监控和级联触发解析。CHARM无需替换现有管道,可与标准agentic RAG协同工作。实验在HotpotQA、MuSiQue、2WikiMultiHopQA和自定义对抗数据集上使用LangChain管道配置进行评估,实现了89.4%的级联检测率,5.3%的误报率,每阶段平均延迟开销215±18毫秒,错误传播减少82.1%,远优于输出级检测器的18.5%。组件消融研究证实每个模块对整体级联覆盖均有贡献。CHARM还支持人机协同监督,为生产级agentic AI部署提供完整可靠性与治理栈。该论文适合AI安全研究员、LLM应用开发者以及关注RAG系统可靠性的工程师阅读。

💡 推荐理由: 级联幻觉是复杂LLM管道(如agentic RAG)中的隐蔽故障,传统检测手段无效。CHARM提供首个系统化缓解方案,对于保障生产环境中AI输出的事实准确性至关重要。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zhenyu Yu, Jihong Guan, Shuigeng Zhou

该论文研究发布签到轨迹数据时的下一兴趣点(next-POI)隐私泄露风险。攻击者可以利用发布的轨迹训练预测模型,高精度推断用户未来位置。现有图像域的不可学习示例方法直接迁移到轨迹数据时会失败,因为生成的扰动必须保持地理和语义合理性,且需抵抗利用随机化防御结构的净化攻击。为此,作者提出Ghost框架,通过流形对齐生成不可学习的轨迹:利用冻结的轨迹语言模型将每次替代扰动引导到真实轨迹流形上,使得去噪桥攻击者无法恢复原始信号,而上下文无关的频率表攻击者只能得到近均匀分布。在两个标准基准和四种攻击者姿态下,Ghost实现了与最强确定性基线PGD相当的保护差距,同时在两个数据集上均达到最低的恢复准确率(针对二元自适应净化攻击),且在保护-抗净化平面上与PGD相差在一个单元标准差内。消融实验表明,流形先验超越了先前随机化防御的熵下限机制,即使泄露20%的pair,频率表攻击者的生存差距仍保持在0.04以内。该工作为轨迹隐私保护提供了新思路。

💡 推荐理由: 首次将不可学习范例引入轨迹隐私领域,解决了现有方法在轨迹数据上不可行的问题,为发布轨迹数据的组织提供了可实践的隐私保护方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 5.5
Conf: 50%
👥 作者: Anjun Gao, Yueyang Quan, Yufei Xia, Zhuqing Liu, Minghong Fang

本文提出一种名为 Patcher 的后处理防御框架,用于修复被植入后门的大语言模型。大语言模型容易受到越狱后门攻击,攻击者通过污染安全对齐数据来嵌入隐藏触发器,从而绕过安全机制。现有防御方法通常需要全面的攻击信息或多个触发样本,但在实际中防御者可能只观察到单个失败案例,且无法确定该失败源于后门攻击还是自然对齐漏洞。Patcher 仅需一个失败案例和模型参数即可工作,分为两个阶段:第一阶段,通过计算基于响应的梯度显著性分数并应用自适应聚类,将后门触发器与良性上下文分离,从而定位后门触发器;第二阶段,通过约束微调目标打破触发器与响应的关联,同时利用 KL 散度约束保持模型在良性任务上的效用和对非触发越狱攻击的鲁棒性。实验评估了多种后门攻击策略,结果表明 Patcher 能够成功定位触发器并消除后门,同时保持模型效用,并且对针对性的自适应攻击也具有鲁棒性。这项工作朝部署语言模型中训练时攻击的实用防御迈出了重要一步。

💡 推荐理由: 大语言模型后门攻击是当前安全研究热点,Patcher 提供了一种仅需单个失败案例即可修复后门的实用方案,降低了防御门槛,对实际部署的模型具有较高应用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Abdelrahman Abouelenein, Marwan Torki

该论文研究面向检索增强推理的差分隐私数据存储生成问题。现代设备端AI系统常依赖检索增强推理,需要共享或发布数据存储(datastore),但可能泄露个体隐私。差分隐私(DP)提供形式化保证,使个体贡献在对抗分析下不可区分。本文提出一种基于哈希的概率生成框架,用于创建和发布差分隐私数据存储。方法首先使用局部敏感哈希(LSH)将高维数据高效划分为多个桶(bucket),然后向每个桶的累积投票中添加校准的DP噪声,生成跨类别的概率分布。该方法适用于任何需要安全创建和发布键值数据存储的管道。在7个数据集上进行实验,样本量和类别数(2-14类)各异。在epsilon=5时,发布的DP数据存储在保持强隐私保护的同时,平均准确率仅下降2.6%。此外,对成员推断攻击的抵抗力进行基准测试,将攻击准确率降至53.60%。核心贡献包括:形式化定义差分隐私数据存储问题;提出实用的LSH+噪声注入框架;实验证明隐私与效用的平衡。适合隐私保护、检索增强系统、设备端AI的研究者和工程师阅读。

💡 推荐理由: 该研究解决了检索增强推理中数据存储共享的隐私泄露风险,提出的DP数据存储生成方法可平衡隐私与实用性,为设备端AI系统的安全部署提供关键技术支持。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yuyang Gong, Miaokun Chen, Jiawei Liu, Zhuo Chen, Guoxiu He, Wei Lu, XiaoFeng Wang, Xiaozhong Liu

本文提出了一种针对检索增强生成(RAG)系统的新型攻击范式——话语级意见操纵。RAG系统通过结合外部语料库来增强大语言模型的回答,但这也引入了检索内容投毒的安全风险。现有攻击大多聚焦于单个查询或狭窄主题的局部查询集,实际影响有限且易于察觉。作者定义了话语级意见操纵威胁模型:攻击者通过构造一个语义查询网络,在多个主题相关的查询上协调操纵检索结果,诱导系统在整体多主题查询空间中产生连续的、目标导向的意见偏移。该威胁模型假设黑盒场景,攻击者只能通过投毒外部文档(即检索语料库)来影响系统输出,且受限于投毒预算。为此,作者提出DiscourseFlip,一种智能体驱动的图引导攻击方法。其核心思想是:将查询网络建模为图,利用图结构分析各节点(查询)的意见传播影响,动态分配有限的投毒预算到关键节点(文档),以最大化全局意见偏离。实验使用多个主题的RAG系统(如基于Llama2-7B的RAG)进行验证,结果表明DiscourseFlip能持续、高效地诱导目标意见偏移,在覆盖率和有效性上显著优于现有的基线攻击(如基于单一查询的投毒或随机投毒)。用户研究表明,被操纵后的回答不易被用户察觉。此外,系统分析发现当前主流的防御策略(如输入过滤、对抗训练)无法有效抵御这种话语级操纵,凸显了开发鲁棒自适应防御的紧迫性。本文主要贡献在于:(1)定义了RAG系统的新威胁模型;(2)提出了有效的图引导攻击算法;(3)揭示了现有防御的不足。适合RAG安全研究者、LLM应用开发者和安全分析师阅读。

💡 推荐理由: 揭示了RAG系统在话语级操纵下的新安全漏洞,现有防御几乎无效,直接影响大模型输出可靠性和用户信任。

🎯 建议动作: 研究跟进,评估内部RAG系统对分布式、多话题操纵的脆弱性,探索图结构检测与鲁棒检索策略。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: George Fatouros, Georgios Makridis, George Kousiouris, John Soldatos, Dimosthenis Kyriazis

这篇论文针对受监管的网络安全运维场景,指出现有的大语言模型(LLM)代理系统虽然在孤立的网络安全任务上表现良好,但缺乏一个能够跨检索、工具调用、记忆、发现、报告和审计强制执行组织级范围、同时保持模型无关且可本地部署的运行时平台。特别是在安全运营中心(SOC)和合规工作流中,单个分析师可能触发绑定整个组织的操作,运行时必须与现有SIEM/XDR堆栈集成,作为上下文和告警驱动触发器的主要来源,而不是作为独立的分析层。为此,论文提出了一种面向金融网络安全领域的组织级LLM代理运行时架构。核心贡献是一种类型化的安全上下文(Security Context),它在每个入口点创建,包括将SIEM/XDR通知作为一等触发器接入,并在每个组件边界强制执行。架构结合了共享运行时核心、逻辑专业子代理、受治理的工具适配层(Tool Adapter Layer),该层在统一策略和审计下暴露SIEM/XDR查询、富化和响应原语,同时包含结构化发现与证据引用、分层人工参与(HITL)门控以及仅追加审计。论文将模型上下文协议(MCP)、扩展遥测、数字孪生用于渗透测试、图检索和联邦知识共享视为可选扩展路径,而非强制运行时假设。作者描述了一个可实现的子集作为架构的可测试性表面,并提出了一个可证伪的评估计划,包含度量级通过标准,用于评估架构就绪性、安全策略执行、证据可追溯性、输出质量和运维可观测性。该论文适合SOC架构师、安全平台开发者、合规技术负责人以及研究LLM在受监管环境中应用的学者阅读。

💡 推荐理由: 该架构填补了LLM代理在受监管网络安全运维中缺乏组织级范围控制和审计能力的空白,为将AI代理安全集成到金融等合规要求严格的SOC工作流提供了可落地的设计蓝图,有助于提升自动化效率同时满足监管审计要求。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Junjie Mu, Qiongxiu Li

联邦检索增强生成(FedRAG)在隐私敏感应用中具有吸引力,因为原始数据保留在本地。然而,路由过程必须依赖客户端提供的语义概要,这为恶意操作创造了新机会。本文提出了一种新型攻击——路由劫持(Routing Hijacking),其中恶意客户端伪造其概要以吸引目标查询,即使其底层数据不相关。研究表明该漏洞非常严重:在三种代表性的FedRAG路由架构中,路由劫持始终能够错误路由目标查询,导致下游干扰和失败,包括证据缺失、投毒、错误答案和幻觉。在高风险的MedQA-USMLE案例研究中,进一步证明投毒的检索证据可以误导不同规模的模型,导致错误答案、幻觉和谄媚故障。现有防御无法弥补这一漏洞:加密的路由保留了被利用的排序,拜占庭鲁棒的联邦学习规则难以迁移到异质路由概要。为解决此问题,作者提出了一种信任感知的后路由框架,利用返回证据反馈(包括检索相关性、概要一致性和跨客户端一致性)对客户端进行重新加权;在线实验表明,该框架能够抑制针对重复查询的持续劫持,并可迁移到学习型神经路由。该研究确立了路由完整性作为FedRAG中的新安全挑战,并强调了需要更强的防御来保障安全的联邦检索。

💡 推荐理由: FedRAG广泛应用于隐私敏感场景,路由劫持攻击可导致严重输出错误,现有防御措施无效,安全从业者需了解此类新型威胁并准备应对。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Jiachen Qian

检索增强生成(RAG)通过引入外部知识库来缓解大语言模型的幻觉问题,但同时也引入了语料库完整性的新攻击面。本文提出 SilentRetrieval,一种两阶段数据投毒攻击,能够在不破坏文档流畅性的前提下劫持 RAG 系统。第一阶段使用协调束搜索(Coordinated Beam Search),这是一种结合流畅性-相似性目标的多 token 联合优化方法,使被污染的宿主文档在保持低困惑度的同时仍然可检索。第二阶段使用上下文自适应触发器生成(Context-Adaptive Trigger Generation),利用冻结的 LLM 驱动轻量级触发器融合步骤,将操纵触发器嵌入文档内容。在单毒化文档每查询的评估设置下,使用合成目标答案,SilentRetrieval 在 Natural Questions 和 MS MARCO 数据集上分别实现了 84.6%/81.3% 的 HR@10 和 57.5%/54.8% 的 ASR-LLM,同时保持接近良性文档的困惑度。跨模型评估显示,在固定触发器生成器下对四种目标 LLM 仍有非平凡效果;针对包括 ColBERT 和商业嵌入模型在内的未见检索器的迁移测试,在相同注入语料协议下平均 HR@10 为 64.7%。在采样维基百科规模评估中,以 0.016% 的投毒比例仍保持 74.2% 的 HR@10。结合检索侧和生成侧的防御虽然显著降低了攻击成功率,但引入了延迟权衡。人工评估显示,与不流畅的基线相比,标记率更低,但在当前样本量下仍比良性内容数值上更可疑。该研究揭示了 RAG 系统在面对精心构造的对抗性文档时的脆弱性,并提示需要更鲁棒的防御机制。

💡 推荐理由: RAG 系统被广泛用于减少 LLM 幻觉,但本文展示了一种隐蔽的数据投毒攻击,能够以极低投毒比例劫持检索结果,影响输出安全性。对于构建 RAG 应用的安全团队,该研究揭示了现有防御的不足,需关注语料库完整性保护。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Yu Yin, Shuai Wang, Bevan Koopman, Guido Zuccon

该论文重新评估了生成式引擎优化(GEO)中的提示注入攻击在真实检索增强生成(RAG)系统中的有效性。先前的研究表明,通过提示注入可以将目标产品推至LLM推荐列表的顶部,成功率约80%,但假设被攻击的文档始终直接输入生成器,忽略了检索器和重排序器。本研究在更现实的三个阶段管道(检索器→LLM重排序器→LLM生成器)中评估了七种GEO攻击。发现之前的协议严重高估了攻击效果:基于梯度和指令覆盖的攻击在到达生成器之前基本失效,只有基于LLM的提示注入在端到端中仍然有效。进一步分析表明,当前的GEO攻击很容易被检测:一个在小型攻击数据集上微调的轻量级提示注入防护器即可检测所有攻击。论文提供了代码和数据。

💡 推荐理由: 揭示了当前GEO攻击在真实RAG管道中的有效性被高估,并指出了可被轻量级防护器检测的弱点,对RAG系统的安全评估与防护设计具有指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Ching-Chun Chang, Isao Echizen

该论文类比生物学中的物种起源,探讨了合成信息(如AI生成内容)的溯源问题。核心挑战在于:当代AI模型生成的“后代”数据可能在结构和信号层面与原始来源差异巨大,导致进化谱系难以追踪。受遗传学启发,作者提出一种基于隐写术的谱系追踪机制:在合成信息被生成(即“繁殖”)时,投影器从父本中提取一个特征(trait),并通过隐写编码器将该特征不可见地嵌入到子本中;该特征在子本的生命周期内持续存在。当需要查询亲子关系时,隐写解码器从子本中提取特征,并与候选父本的特征池进行比对,从而判定最可能的来源。理论分析刻画了系统参数(投影器与隐写系统属性)对系统发育准确性的影响,而跨多种投影器和隐写系统的实验表明,该方法在一系列处理操作和语义修改下仍具有可行性。作者展望了一个合成信息均携带隐蔽但可追踪谱系特征的网络生态系统,从而能够追溯信息的演化历程。

💡 推荐理由: 本文提供了一种新颖的合成内容溯源方法,可应对AI生成内容被广泛误用或伪造的风险。通过隐写术嵌入谱系特征,有助于鉴别内容来源、提升信息可信度,并为内容真实性验证提供技术基础。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Syed Huma Shah

本文针对检索增强生成(RAG)系统中的缓存安全问题展开研究。现代RAG部署广泛使用缓存来降低token成本和时间至首token延迟(TTFT),其中前缀级KV复用已是标准做法,但输出级的语义答案缓存仍然脆弱:相似提示可能映射到不同正确答案,检索证据随语料更新而漂移,且存在对抗性碰撞攻击可劫持缓存响应。作者指出缓存答案复用的关键问题不在于如何更快复用,而在于何时复用是安全的。为此,他们提出GroundedCache——一种基于证据验证的缓存路由器,仅当四个廉价门控条件同时满足时才允许复用缓存答案:查询相似性、检索证据重叠、源版本有效性以及新检索证据对缓存答案的词汇(或基于评判器)支持。研究构建了一个六模态工作负载来压力测试缓存安全性而非仅关注命中率,并引入面向运营者的指标——不安全服务率(USR),即接收到错误缓存答案的查询比例。在2个数据集和12,000个真实LLM生成(使用vLLM和自动前缀缓存的Qwen2.5-7B-Instruct)上的实验表明,GroundedCache在HotpotQA的每个模态下将USR降至0.0%(而朴素缓存为15-35%),在mtRAG文档漂移下降至1.5%(对比51.5%),在对抗性模态下实现34倍减少,在其他mtRAG模态下减少3-10倍,同时端到端中位延迟保持在无缓存RAG基线的1.04-1.07倍。消融实验显示,词汇支持门控是两个数据集上的主要安全机制,其他门控以接近零成本提供深度防御。本文适用于RAG系统开发者、缓存设计者和安全研究者。

💡 推荐理由: 揭示了RAG中缓存答案复用的安全漏洞,提出一种轻量级验证机制,可显著降低不安全缓存服务率(USR),对保障RAG系统输出正确性至关重要。

🎯 建议动作: 研究跟进:评估将GroundedCache集成到现有RAG缓存栈的可行性。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Sudheer Tubati, Amit Goyal

该论文针对音乐流媒体平台中的人为篡改播放量欺诈问题,提出了一种可扩展的自动门控集成方法SAGE。传统欺诈检测方法在区分超级粉丝、助眠音乐等合法边缘场景与协调欺诈行为时面临挑战,因为两者行为模式高度相似。SAGE结合了SimHash分层层抽样与模块化门控集成,从无标签数据中高质量地筛选出负面样本(即确定非欺诈的样本),解决了正样本-无标签学习中的表示偏差问题。其集成的统计门控(目前通过马氏距离和k-NN密度实现)具有可配置的投票阈值,能够自适应调整精确率与召回率的平衡。通过在保持数据集上对客户级和艺术家级欺诈的检测验证,该方法表现出较强的精确率和召回率,且核心方法无需修改即可推广至其他欺诈检测领域。

💡 推荐理由: 为流媒体平台提供了一种高效的负面样本自动筛选技术,有助于改善欺诈检测模型的训练数据质量,降低人工标注成本,并提升对隐蔽欺诈行为的识别能力。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chengcai Gao, Zhihong Sun, Xiaochuan Shi, Qiufeng Wang, Chao Liang

本文针对检索增强生成(RAG)系统面临的安全威胁,提出了一种名为BiRD(双向排序防御机制)的新型防御方法。研究首先识别了现有防御手段(如基于语义分析或投票机制)的核心局限性:它们仅关注语义内容相关性,而忽略了由排序结构定义的检索上下文。通过对被毒化文档与良性文档的双向排序行为分析,作者发现了一个关键区分模式:被毒化文档的反向排序与查询的正向排序之间表现出显著更强的对齐性。利用这一发现,BiRD构建了一个双信号框架,其中正向排序用于评估语义内容相关性,反向排序用于量化排序上下文的一致性,从而同时实现了高效性和鲁棒性。在3个数据集、3种检索器和3种大语言模型上,针对2种攻击场景的广泛评估验证了BiRD的有效性。特别地,BiRD将PoisonedRAG攻击的成功率降低高达54%,同时将任务准确率提升高达56%,且平均额外延迟低于1秒。该工作为RAG系统的对抗性防御提供了新思路,适合研究对抗机器学习、RAG安全以及信息检索的学者和工程师阅读。

💡 推荐理由: RAG系统正面临日益严重的对抗性攻击,现有防御存在计算成本高或鲁棒性不足的问题。BiRD利用双向排序模式差异,以低延迟实现高防御效果,为实际部署提供了可行方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 10.5
Conf: 50%
👥 作者: Florian A. D. Burnat, Brittany I. Davidson

本文聚焦于多租户检索增强生成(RAG)服务中的隐私审计问题。现有RAG系统通常声称每个账户满足差分隐私(DP),即每个账户的查询对索引满足(ε_acc, δ_acc)-DP。然而,作者发现同租户下多个账户合谋(即同一租户的多个账户协调攻击其租户的索引)会导致隐私边界失效:对于高斯噪声检索,已知DP组合理论表明,合谋者的联合泄漏以Θ(√k·ε_acc)的速率无条件恶化。跨租户和外部合谋只有在显式访问控制失败(M4)时才会达到相同速率,否则这些场景的设计泄漏为零,属于架构审计而非DP审计。作者展示了一种实现该速率的攻击,并推导出针对RAG的成员推理攻击(MIA)预测,并通过实验验证。为了能够审计这种每个账户与联合隐私之间的差距,作者设计了第一个审计协议,该协议运行在未修改的RAG部署上,针对检索-分数通道(即每个账户DP保证实际覆盖的噪声-选择步骤)输出定量的(PASS, ε_audit)判定,而无需索引披露、流水线重新设计或模型权重暴露。生成通道隐私(即基于所选文档的LLM输出)被视为独立的审计谓词,应与此协议组合,但本文明确将其排除在外。该协议组合了通用密码学原语(Merkle账本、ZK函数应用证明、高斯噪声证明)与六个RAG特定原语(嵌入承诺、索引内容向量承诺、每个账户查询账本、噪声-选择证明、跨租户包含证明、合谋规模估计器),并支持封闭形式的审计边界和Rényi-DP矩会计追踪。

💡 推荐理由: 该研究揭示了多租户RAG系统中每个账户差分隐私声明的漏洞,即同租户多账户合谋可显著放大隐私泄漏,并提供了首个可部署的审计协议,有助于验证实际RAG服务的隐私承诺,对依赖RAG的云服务提供商和审计人员具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hongjang Yang, Hyunsik Na, Daeseon Choi

本文针对基于大型语言模型(LLM)的聊天机器人代理,研究了一种通过间接提示注入实现隐私泄露的攻击链。研究背景是:LLM代理通过结合自然语言推理和外部工具(如网页浏览)来处理用户请求,这提升了可用性,但也带来了安全风险,因为不可信的外部内容可能被纳入处理流程。作者聚焦于黑盒环境,即攻击者无法访问模型权重、系统提示或代理实现细节(包括查询处理过程中的轨迹管理方式)。首先,作者分析了攻击者如何通过构造看似无害但实际诱导代理执行攻击者定义目标的外部内容,来劫持代理的原始任务。然后,提出了一种新的提示注入技术——"exemplification"(示例化),该技术利用外部内容中的“桥梁”,将用户提示和检索页面的良性开头重新构造为少量示例,随后附加攻击者的目标。作者将其攻击成功率与先前的伪造补全(fake-completion)技术进行了比较。最后,在受控环境中使用虚构个人信息演示了概念验证的数据外泄链。结果表明,提示注入、越狱式指令引导和网页工具调用可以组合成一条可行的隐私泄露路径,即使在部署的聊天机器人代理中也可能实现。该研究为理解和防御此类攻击提供了实证基础。

💡 推荐理由: 揭示了LLM聊天机器人在处理外部内容时面临的新型隐私泄露风险,特别是通过间接提示注入实现的数据外泄链,对使用LLM代理的企业和开发者具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Jascha Wanger

现代检索增强生成(RAG)系统将敏感内容转换为高维嵌入向量并存储在向量数据库中,这些数据库将产生的数值视为不透明数据。主流向量存储产品缺乏针对嵌入完整性、摄入时分布异常检测或加密来源证明的原生控制。本文揭示了一类隐写泄露攻击:拥有摄入管道写入权限的攻击者可以通过简单的后嵌入扰动(噪声注入、旋转、缩放、偏移、碎片化及其组合)将有效载荷数据隐藏在嵌入向量中,同时保持RAG系统向合法用户暴露的表面检索行为。作者在text-embedding-3-large、四个本地开源嵌入模型、跨语料库复制(BEIR NFCorpus和Quora子集,共超过26000个文本块)、七种向量存储配置、自适应攻击者检测评估以及释义查询检索基准上进行了评估。实验表明,分布偏移扰动常被简单异常检测器捕获;而小角度正交旋转能击败所有(模型,语料库)组合上的基于分布的检测。一种不相交Givens旋转编码器给出每个嵌入的闭式容量上限为floor(d/2)*b比特,但真实嵌入流形限制了容量-可检测性权衡,且保持检索的工作点远低于该上限。作者提出了VectorPin,一种加密来源协议,通过Ed25519签名将每个嵌入与其源内容和生成模型绑定,任何嵌入后的修改都会破坏签名验证。嵌入级完整性是一种可部署、可标准化的控制措施,能够封堵此类攻击。

💡 推荐理由: 该研究揭示了向量数据库中的隐写泄露风险,对依赖RAG处理敏感数据的企业构成直接威胁,并提出了一种实用的加密防御方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chunxiao Wang

本文提出Nautilus Compass,一个面向生产环境LLM coding agent的黑盒人格漂移检测与记忆层系统。研究背景:LLM agent在长时间会话中会出现人格漂移,例如遗忘用户指定的约束、重复已被用户指出的错误、虚构先前的协议。现有白盒方法(如人格向量)需要模型权重,无法应用于大多数用户实际使用的闭源API(Claude、GPT-4)。核心方法:Compass完全在提示文本层操作,使用BGE-m3嵌入计算用户提示与行为锚点文本之间的余弦相似度,并通过加权top-k均值聚合。该方法不调用LLM进行事实提取或构建图,原始对话文本直接嵌入,是唯一公开的不需要索引时调用LLM的记忆层(经与Mem0、Letta等对比)。系统实现为Claude Code插件、MCP A2A服务器、CLI和REST API,并带有Merkle链审计日志以保证锚点更新的防篡改。实验:基于真实Claude Code会话轨迹构建测试集,由独立LLM法官标记,Compass在漂移检测上达到ROC AUC 0.83。其在LongMemEval-S v0.8上得分为56.6%,在EverMemBench-Dynamic上为44.4%(n=500),超过了已发布的四个基线。但LongMemEval-S得分比最新的白盒方法低约30个百分点,作者认为这是无需提取设计的天花板。端到端复现成本为3.50美元(比GPT-4o评估栈便宜约14倍)。代码、锚点、冻结测试数据和审计日志工具均在MIT许可下开源。核心贡献:(1)第一个黑盒、低成本的persona漂移检测方法;(2)提供无需LLM调用的记忆层;(3)实现防篡改审计日志。适合LLM agent开发者和安全研究人员阅读。

💡 推荐理由: 生产环境中的LLM agent常因人格漂移导致行为不可靠,而现有白盒方法依赖模型权重,无法用于闭源API。本方法提供了一种黑盒、低成本、无需调用LLM的检测方案,有助于提升agent的鲁棒性和可信度。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Francisco Javier Arceo, Varsha Prasad Narsing

本文针对企业级AI系统中检索增强生成(RAG)和智能体AI系统的多租户安全隔离问题,提出了一种分层隔离架构。现有系统通常基于语义相似度、关键词匹配或混合方法按相关性对文档排序,而非按授权策略,导致不同租户的查询可能因得分最高而暴露其他租户的机密数据。作者首先形式化了这一差距,并分析了工具中介泄露、跨轮上下文累积和客户端编排绕过等额外缺陷。为解决这些问题,他们提出了一种结合策略感知摄入、检索时门控和共享推理的分层隔离架构,并通过服务端智能体编排强制执行。该架构将安全关键操作(如工具执行授权、状态隔离和策略执行)集中到服务器端,为多租户隔离创建自然强制点,同时允许客户端框架保留对智能体组合和延迟敏感操作的控制。作者在OGX框架中开源实现了该方案,OGX是一个供应商中立的框架,实现了兼容OpenAI的响应API,并支持服务端多轮编排。实验评估表明,基于属性的访问控制(ABAC)门控消除了跨租户泄漏,同时引入了可忽略的开销。本文适合企业AI架构师、安全工程师和RAG系统开发者阅读,提供了切实可行的安全设计模式。

💡 推荐理由: 企业AI部署中多租户数据隔离是现实但常被忽视的挑战,本文直接指出了现有RAG架构的授权盲区,并给出了可落地的分层隔离方案,对构建安全的智能体系统有重要参考价值。

🎯 建议动作: 研究跟进:建议企业AI团队评估现有RAG系统的授权模型,考虑采用服务端策略强制的隔离架构。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hiroyuki Deguchi, Katsuki Chousa, Yusuke Sakai

该论文研究了多模态编码器(如CLIP)在跨模态检索和评估任务中存在的“中心点”(hubness)问题。在高维嵌入空间中,某些嵌入点(称为hub)会与大量不相关样本具有高相似度,这可能导致跨模态相似性计算的异常。作者提出了一种方法,能够识别出这样的hub嵌入以及对应的hub文本。具体地,他们通过分析嵌入空间的分布特性,找到那些在多个查询中频繁成为近邻的嵌入点,并据此生成或筛选出hub文本。实验在MSCOCO和nocaps的图像描述评估任务,以及MSCOCO和Flickr30k的图像到文本检索任务上进行。结果表明,存在单个hub文本,其与大量图像计算得到的相似度分数,不合理地达到甚至超过了人工撰写的参考描述。这揭示了当前跨模态编码器的脆弱性:攻击者可能利用此类hub文本操纵检索结果或评估指标。论文的主要贡献是系统性地展示了hubness对跨模态编码器的实际威胁,并提供了诊断方法。适合关注多模态AI安全、信息检索鲁棒性的研究人员阅读。

💡 推荐理由: 该研究揭示了多模态编码器的结构性漏洞,单个文本即可污染检索或评估结果,威胁内容审核、图像搜索等应用的可靠性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Md Hasan Saju, Akramul Azim

该论文提出了一种面向安全运营中心(SOC)的端到端威胁管理框架,旨在解决威胁数量增长、SIEM平台异构以及人工分诊耗时的运营挑战。框架包含三个核心模块:基于集成学习的检测模块、语法约束的查询生成模块(SQM)以及检索增强的响应支持模块。检测模块评估了传统机器学习分类器和多种大语言模型(LLM),并选择三个性能最佳的LLM构建集成模型,在SIEM日志上达到82.8%的准确率和0.120的假阳性率。SQM架构通过平台特定的语法约束、元数据检索和文档驱动的提示生成可执行查询,支持IBM QRadar和Google SecOps,BLEU得分为0.384,ROUGE-L得分为0.731,比基线LLM性能提升两倍以上。在事件响应方面,集成SQM证据将解决代码预测准确率从78.3%提升至90.0%,总体推荐质量评分达8.70。在生产SOC环境中,该框架将平均事件分诊时间从数小时降至10分钟以内。研究证明,结合检索增强的领域约束LLM架构能够满足运营安全环境对可靠性和效率的严格要求。

💡 推荐理由: 该框架展示了LLM在SOC自动化中的实际应用潜力,显著缩短事件响应时间,为安全团队应对日益复杂的威胁提供了可行方案。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)