#credential-exfiltration

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Kargi Chauhan, Pratibha Revankar

本论文研究了LLM智能体在将敏感凭证与不受信任的检索内容置于同一上下文窗口时,面临的间接提示注入导致凭证泄露的风险。作者提出了三种互补的防御方法:首先,利用激活探针在输出令牌生成前检测凭证访问行为,在开源模型上实现了对良性提示与凭证窃取提示的高精度区分,且对编码变换具有鲁棒性;其次,构造基于格式特定字符模型的蜜令牌,并结合分裂共形预测校准检测阈值;第三,将多轮凭证泄露视为累计信息流问题,通过估计对话轮次间的泄漏预算来跟踪攻击,在小型合成多轮测试中,累计记账方法能够检测到单轮检测器遗漏的攻击。实验表明,组合使用预输出监控、校准蜜令牌检测和时间泄漏记账比仅依赖文本级输出过滤器更有效。但该研究仍处于初步阶段:多轮基准测试为内部小规模数据集,激活方法需要白盒访问,信息估计器提供的是实用信号而非形式化上界。论文面向AI安全研究人员、LLM应用开发者及防御工程师。

💡 推荐理由: LLM智能体广泛应用中,凭证泄露是新兴且高风险的攻击面,本研究提供了可落地的检测思路,帮助防御者提前识别并阻断攻击。

🎯 建议动作: 研究跟进,评估方法在自有模型和场景下的有效性

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)