推荐 5.5
Conf: 50%
本文研究了一种针对大语言模型的新型间接提示/内容注入攻击方式。传统的基于文本的防御假设恶意信号在文本视图中可见,但作者发现当恶意负载以结构化浮点参数形式传输,并仅在碎片化遥测中重建时,可以绕过文本检测器。具体来说,攻击者将恶意指令编码为浮点数数组(使用IEEE 754格式),通过结构化输入管道传递给LLM,LLM在解析时重建出原始文本,从而执行注入。作者在三个商业LLM API上进行了14400次攻击试验,测试了最新的双重文本分类器防御(Prompt Guard 2 + TF-IDF集成),发现浮点数组载体在最强防御下仍能达到94.3%的泄露成功率(ASR)。同时,针对微调的roberta-base检测器也观察到类似效果。作者强调,即使模型拒绝执行,下游系统可能对引用的标记做出反应,因此泄露ASR是关键指标。通过2x2消融实验,作者发现数据层存储和重建层碎片化共同作用才能绕过文本视图检测。文中提出了一种简单的xxd检测器和语义验证块可以阻止当前攻击实例,因此本文的贡献不在于提供不可检测的漏洞,而是揭示了在结构化输入管道中仅依赖文本检测的失败边界,尤其是当LLM暴露于重建的辅助通道时。适合安全研究人员、LLM服务提供商以及防御系统设计者阅读。
💡 推荐理由: 本文揭示了一种绕过文本防御的间接提示注入方法,挑战了仅依赖文本检测的安全假设,对结构化输入管道的LLM应用具有重要警示意义。
🎯 建议动作: 研究跟进
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)