#llm-agents 主题 - Cyber Security Daily Radar

👥 作者: Ping He, Yuexiang Xie, Yaliang Li, Shouling Ji

随着大型语言模型（LLM）智能体的快速发展，其已被广泛应用于各类真实世界任务。为了标准化LLM智能体与外部环境之间的交互，模型上下文协议（MCP）工具应运而生，并成为事实上的标准，被广泛集成到这些系统中。然而，MCP工具的使用也引入了新的安全风险，因为LLM智能体可能被诱导执行恶意或未经授权的操作。尽管已有工作提出了针对LLM智能体工具使用的防御措施，但大多数方法依赖静态分析（即检查提示词和生成的输出），这限制了防御的有效性和鲁棒性。为了克服这些局限，本文提出了MTGuard，一种基于混合分析的防御框架，通过生命周期感知的静态-动态协同分析来保护LLM智能体中MCP工具的安全使用。广泛的评估表明，MTGuard能够有效缓解不同LLM智能体上多种类别的有害工具使用，同时保持良性用户任务的性能。该研究的核心贡献包括：提出了首个结合静态与动态分析的MCP工具安全防御框架；引入生命周期感知的概念，覆盖工具调用的完整过程；通过实验证明了其在多个智能体上的有效性和通用性。该论文适合LLM安全研究人员、智能体平台开发者以及关注AI供应链安全的安全工程师阅读。

💡 推荐理由: MCP已成为LLM智能体与外部工具交互的标准，但其安全风险尚未得到充分解决。MTGuard提出的混合分析思路突破了传统静态检测的局限，为蓝队防护AI智能体提供了新的技术参考。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Tarek Elsayed, Shiping Yang, Eunsong Koh, Sanika Goyal, Vincent Huang, Paul Ngo, Nathan Young, Mohammad Omidvar Tehrani, Alvyn Kang, Arnell Kang, Zeyu Chen, Angélica Moreira, Xuan Feng, Angel X. Chang, Nick Sumner, Steven Y. Ko

本文提出RustMizan，一个针对Rust语言漏洞分析的可编译、污染感知的基准测试框架。现有漏洞分析基准通常依赖小型不可编译的代码片段，仅关注二分类（是否有漏洞），且未考虑公开数据集可能已包含在模型训练语料中带来的数据污染风险。RustMizan通过三个设计解决这些不足：1）提供在crate、文件和函数级别的可编译代码变体，并附带二进制漏洞检测、CWE分类以及函数级与行级定位的注释；2）引入配对突变框架，通过生成语义保持的代码突变体来测试模型对训练数据污染的敏感性和鲁棒性；3）在agentic设置下（具备命令行访问权限）对四个前沿模型进行评估。实验结果表明，二进制漏洞分类准确率在56-65%区间，但行级定位F1分数仅约20%，而对抗性线索导致行级F1下降约27%。该框架为评估LLM驱动的安全代理在真实Rust代码上的漏洞分析能力提供了标准化测试床，尤其关注数据污染对性能评估的影响。适合安全研究人员和AI安全从业者阅读。

💡 推荐理由: RustMizan是首个专门针对Rust语言、考虑数据污染的可编译漏洞分析基准，有助于准确评估LLM agent在真实场景中的漏洞检测与定位能力，避免因训练数据重叠导致的性能高估。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Pritam Dash, Tongyu Ge, Aditi Jain, Tanmay Shah, Zhiwei Shang

该论文系统性地研究了基于大语言模型（LLM）的智能体中的内存中毒攻击。内存作为智能体核心组件，允许其在多次交互中积累知识以提升性能，但同时也引入了风险：一次对抗性内存写入即可长期影响智能体行为。作者首先识别了四种内存写入通道（如用户输入、工具调用输出、系统提示修改、外部数据源），并分析了模型能力、系统提示设计以及智能体系统架构中存在的九种结构性漏洞，这些漏洞使得上述通道可被利用。基于这些漏洞，论文提出了包含六类内存中毒攻击的分类法，包括直接注入、间接注入、持久化污染、检索操纵、上下文污染和混合攻击。此外，作者设计了MPBench基准测试框架，用于评估内存中毒攻击的效果，实验表明更激进地写入和检索内存的智能体更容易被利用。研究还发现现有提示注入防御手段无法覆盖内存中毒攻击。该工作为理解和防御AI智能体中的内存中毒攻击奠定了基础，适合安全研究员和AI系统开发人员阅读。

💡 推荐理由: 随着AI Agent的广泛应用，内存中毒攻击可能导致其行为长期被恶意控制，现有防御措施失效，威胁LLM应用的实际安全。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Jiawen Shi, Zenghui Yuan, Guiyao Tie, Pan Zhou 0001, Neil Zhenqiang Gong, Lichao Sun 0001

本研究聚焦于大语言模型（LLM）代理中的工具选择机制面临的提示注入攻击威胁。LLM代理通常通过调用外部工具来扩展其能力，例如搜索引擎、计算器或数据库查询。工具选择是代理根据用户指令和上下文自动决定调用哪个工具的关键步骤。研究者发现，攻击者可以通过精心构造的提示，操纵代理选择恶意工具或绕过安全限制，从而引发数据泄露、权限滥用等风险。论文系统性地分析了这类攻击的原理，提出了一种基于对抗性提示的威胁模型，并设计了多组实验验证攻击的可行性和影响。实验表明，当前主流LLM代理（如基于GPT-4、LLaMA等）的工具选择模块在面临针对性提示注入时表现出脆弱性。作者进一步讨论了防御策略，包括输入净化、上下文隔离和工具使用权限最小化等。该研究揭示了LLM代理安全性的新维度，为开发更健壮的代理系统提供了理论基础和实用建议。适合AI安全研究员、LLM应用开发者及安全工程师阅读。

💡 推荐理由: 随着LLM代理广泛应用，工具选择环节的安全隐患可能成为攻击者控制代理行为的突破口，导致敏感数据泄露或恶意操作。本研究率先系统性分析该威胁，对防御策略设计具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#llm-agents

Hybrid Analysis for Secure MCP Tool Use in LLM Agents

RustMizan: A Compilable, Contamination-Aware Benchmarking Framework for Rust Vulnerabilities

From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents

Prompt Injection Attack to Tool Selection in LLM Agents.