#forensic-trajectory

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Jun Wen Leong

本论文针对LLM agents在持续内存中毒攻击下的行为模式进行了研究,发现了一个关键的行为不变性:在通过可观测的内存工具调用检索路由信息的架构中,成功的攻击必须按照特定的顺序调用工具——先调用memory_recall_fact,再调用email_send_email,而正常的非泄密会话很少出现这种调用顺序。这一不变性源于攻击的信息检索依赖性,而非纯粹的经验关联,并且破坏这一顺序会导致攻击失败。基于这一不变性的简单规则即可实现AUC=0.9563的检测性能。进一步,作者使用随机森林分类器在19个轨迹特征上训练,将AUC提升至0.9904(BCa 95% CI [0.987, 0.993],重采样N=10,000),证明攻击在多个独立的行为通道上都留下了痕迹。该签名具有过定性:即使移除所有与回忆相关的特征(约占特征集一半),AUC仍稳定在0.990,表明内存中毒会引发分布式的轨迹签名,而非单一可观测的异常。跨模型留出验证在9个模型(7B-120B参数)上进行,其中6/9的留出分区AUC达到1.000,其余三个分区的异常均可通过机制解释。该不变性可泛化到前沿模型(GPT-4.1、GPT-4o)而无需重新训练。此外,仅利用前缀信息的变体仍能达到AUC=0.934,表明实时阻断是可行的,且性能损失适中。最后,该边界具有取证价值:绕过内存的提示注入攻击会产生截然不同的轨迹(得分为0.541),使得事件响应人员仅通过工具调用日志即可区分内存通道攻击和提示注入攻击。

💡 推荐理由: 该研究为LLM agent的内存中毒攻击提供了一种高效、可泛化的检测方法,基于行为轨迹的不变性实现了高精度检测,并能够区分内存中毒与提示注入攻击,对提升AI系统的安全性具有重要实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)