推荐 5.5
Conf: 50%
本文针对基于大型语言模型(LLM)的聊天机器人代理,研究了一种通过间接提示注入实现隐私泄露的攻击链。研究背景是:LLM代理通过结合自然语言推理和外部工具(如网页浏览)来处理用户请求,这提升了可用性,但也带来了安全风险,因为不可信的外部内容可能被纳入处理流程。作者聚焦于黑盒环境,即攻击者无法访问模型权重、系统提示或代理实现细节(包括查询处理过程中的轨迹管理方式)。首先,作者分析了攻击者如何通过构造看似无害但实际诱导代理执行攻击者定义目标的外部内容,来劫持代理的原始任务。然后,提出了一种新的提示注入技术——"exemplification"(示例化),该技术利用外部内容中的“桥梁”,将用户提示和检索页面的良性开头重新构造为少量示例,随后附加攻击者的目标。作者将其攻击成功率与先前的伪造补全(fake-completion)技术进行了比较。最后,在受控环境中使用虚构个人信息演示了概念验证的数据外泄链。结果表明,提示注入、越狱式指令引导和网页工具调用可以组合成一条可行的隐私泄露路径,即使在部署的聊天机器人代理中也可能实现。该研究为理解和防御此类攻击提供了实证基础。
💡 推荐理由: 揭示了LLM聊天机器人在处理外部内容时面临的新型隐私泄露风险,特别是通过间接提示注入实现的数据外泄链,对使用LLM代理的企业和开发者具有重要警示意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)