推荐 5.5
Conf: 50%
本文提出了一种名为 PIIGuard 的网页级防御机制,旨在缓解大型语言模型(LLM)助手在浏览网页时从公共页面中抓取联系型个人身份信息(PII)的风险。现有的防御措施大多部署在模型层、服务层或智能体层,而普通网页所有者缺乏可行的部署选项。PIIGuard 通过重新利用间接提示注入作为保护手段:网页所有者嵌入优化的隐藏 HTML 片段,引导模型避免逐字或可重建地披露联系 PII。该方法利用基于规则的泄漏评分、进化变异和最终基于评估器的可恢复性评估来搜索片段文本和插入位置。在直接 HTML 评估中,针对 GPT-5.4-nano、Claude-haiku-4.5 和 DeepSeek-chat(最新 v3.2)三个目标模型,PIIGuard 在基于规则和基于评估器的泄漏评估下至少达到 97.0% 的防御成功率,通常达到 100.0%,同时保持了良性同页面问答的效用。进一步评估了两种更难的设置:公共 URL 浏览和攻击方对抓取网页的 LLM 清洗。结果表明,页面侧防御片段在部署中对于某些模型-位置对仍然有效,但鲁棒性在不同浏览界面和清洗提示之间差异很大。总体而言,PIIGuard 证明网页所有者可以使用页面侧片段作为网络接地 PII 泄漏的实际缓解措施。
💡 推荐理由: LLM 助手从公开网页中无意识抓取个人联系信息已成为现实威胁。PIIGuard 首次提出由网页所有者主动嵌入防御片段的方法,为无法控制模型或服务层的个人或组织提供了低成本、可部署的 PII 泄露防护手段。
🎯 建议动作: 研究跟进,评估在自有网站或客户网站上部署类似防御片段的可行性。
排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)