#enterprise-documents

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Aaditya Pai

本文针对基于大语言模型(LLM)的智能代理在真实企业文档场景下面临的提示注入攻击防御问题展开研究。现有防御方法主要依赖合成基准测试进行评估,但在实际企业文档(如SEC文件、联邦公报规则、PubMed摘要、arXiv论文和GitHub事后分析报告)上表现不佳。这些文档通常更长、更密集,且将合法权威语言与事实内容交织在一起,使得传统防御难以泛化。作者构建了一个跨金融、法律、医学、科学和DevOps五个专业领域的122个任务的真实文档基准测试,并发现即使是最强的合成基准防御方法(释义)在真实文档上也未显示出统计学显著的攻击成功率降低(p=0.500),同时导致工具效用从91.8%降至82.8%。为此,作者提出了PARSE(Provenance-Aware Retrieval Sanitization),一种领域感知、事实保留的文本清洗流水线。PARSE首先对每个句子进行注入可能性分类,接着在改写前提取结构化事实,并通过一致性检查循环验证事实保留。此外,一个引导门将59%的真实企业文档路由到轻量级处理路径,从而将计算成本集中在高风险文档上。实验结果显示,PARSE的攻击成功率为15.6%,比基线25.4%降低了38%,且保持86.9%的效用,这是唯一兼具统计学显著性(p=0.014,统计功效充足)且维持接近基线效用的防御条件。研究建议从业者在领域匹配的真实文档上评估防御,而非依赖合成代理。

💡 推荐理由: 揭示了当前提示注入防御在真实企业文档场景下的严重失效问题,并提供了首个跨领域真实文档基准和一种兼顾安全性与可用性的实用防御方案,对LLM智能代理在专业领域的实际部署具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)