#MCTS

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Inderjeet Singh, Andrés Murillo, Motoyoshi Sekiya, Yuki Unno, Junichi Suga

本文提出了一种针对多模态智能体检索增强生成(RAG)系统的统一红队测试框架MIRROR。现有红队方法通常针对特定攻击面(如文本投毒、图像注入、直接查询、编排器工具操控),且常复用已知攻击模板,在文本投毒基准测试中重复率高达73-84%。MIRROR采用记忆引导的蒙特卡洛树搜索(MCTS),通过检索上下文约束候选生成,并引入显式的新颖性约束:确定性新颖性门控拒绝与检索集匹配的候选(基于归一化比较),使检索仅用于指导搜索先验而避免提示复制。在包含4个攻击面的多模态智能体RAG目标上,MIRROR实现了图像投毒76%的攻击成功率(ASR),基线为52%;编排器攻击97% ASR且查询成本减半;跨攻击面变异系数最低(0.47)。相比之下,专用基线在不同攻击面间性能崩塌:后缀优化在文本投毒上达79% ASR,但在直接查询上仅1%。作者还发布了ART-SafeBench基准测试,包含4个攻击面的41,815条包内记录及运行时适配器,总计41,991+条记录。

💡 推荐理由: 该工作针对多模态智能体RAG系统的跨攻击面安全问题,提出了一种统一、高效且具备记忆能力的红队测试方法,对提升此类系统的鲁棒性和安全性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)