#credential-exfiltration 主题 - Cyber Security Daily Radar

👥 作者: Kargi Chauhan, Pratibha Revankar

本论文研究了LLM智能体在将敏感凭证与不受信任的检索内容置于同一上下文窗口时，面临的间接提示注入导致凭证泄露的风险。作者提出了三种互补的防御方法：首先，利用激活探针在输出令牌生成前检测凭证访问行为，在开源模型上实现了对良性提示与凭证窃取提示的高精度区分，且对编码变换具有鲁棒性；其次，构造基于格式特定字符模型的蜜令牌，并结合分裂共形预测校准检测阈值；第三，将多轮凭证泄露视为累计信息流问题，通过估计对话轮次间的泄漏预算来跟踪攻击，在小型合成多轮测试中，累计记账方法能够检测到单轮检测器遗漏的攻击。实验表明，组合使用预输出监控、校准蜜令牌检测和时间泄漏记账比仅依赖文本级输出过滤器更有效。但该研究仍处于初步阶段：多轮基准测试为内部小规模数据集，激活方法需要白盒访问，信息估计器提供的是实用信号而非形式化上界。论文面向AI安全研究人员、LLM应用开发者及防御工程师。

💡 推荐理由: LLM智能体广泛应用中，凭证泄露是新兴且高风险的攻击面，本研究提供了可落地的检测思路，帮助防御者提前识别并阻断攻击。

🎯 建议动作: 研究跟进，评估方法在自有模型和场景下的有效性

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#credential-exfiltration

Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents