#MCTS 主题 - Cyber Security Daily Radar

👥 作者: Inderjeet Singh, Andrés Murillo, Motoyoshi Sekiya, Yuki Unno, Junichi Suga

本文提出了一种针对多模态智能体检索增强生成（RAG）系统的统一红队测试框架MIRROR。现有红队方法通常针对特定攻击面（如文本投毒、图像注入、直接查询、编排器工具操控），且常复用已知攻击模板，在文本投毒基准测试中重复率高达73-84%。MIRROR采用记忆引导的蒙特卡洛树搜索（MCTS），通过检索上下文约束候选生成，并引入显式的新颖性约束：确定性新颖性门控拒绝与检索集匹配的候选（基于归一化比较），使检索仅用于指导搜索先验而避免提示复制。在包含4个攻击面的多模态智能体RAG目标上，MIRROR实现了图像投毒76%的攻击成功率（ASR），基线为52%；编排器攻击97% ASR且查询成本减半；跨攻击面变异系数最低（0.47）。相比之下，专用基线在不同攻击面间性能崩塌：后缀优化在文本投毒上达79% ASR，但在直接查询上仅1%。作者还发布了ART-SafeBench基准测试，包含4个攻击面的41,815条包内记录及运行时适配器，总计41,991+条记录。

💡 推荐理由: 该工作针对多模态智能体RAG系统的跨攻击面安全问题，提出了一种统一、高效且具备记忆能力的红队测试方法，对提升此类系统的鲁棒性和安全性具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#MCTS

MIRROR: Novelty-Constrained Memory-Guided MCTS Red-Teaming for Agentic RAG