#guardrail

共收录 2 条相关安全情报。

👥 作者: William Hackett, Peter Garraghan

本文提出了一种针对大型语言模型（LLM）及智能体系统中防护栏（guardrail）的黑盒侦察方法。在现实应用中，LLM常配备防护栏系统以检测并阻止恶意指令。然而，在进行黑盒对抗模拟时，研究人员难以区分防护栏拦截与LLM自身拒绝响应（LLM rejection），这两种情况需要不同的绕过策略，从而影响攻击技术的选择与优化。作者首次提出了一套黑盒防护栏侦察方法论，仅通过HTTP、词汇及时间信号的监控行为来推断目标AI系统中是否存在防护栏，无需任何先验知识。实验表明，该方法能以100%的准确率检测防护栏存在，且在良性交互与恶意交互之间实现统计显著的行为分离（q < 0.001）。此外，该方法还能识别防护栏设计阻止的内容类别，并在未见提示上以平均F1分数98%区分防护栏拦截与LLM拒绝。该研究为AI安全评估提供了重要工具，帮助安全从业者在黑盒场景下更准确地理解系统安全机制。

💡 推荐理由: 区分防护栏拦截与LLM拒绝是AI安全评估的关键挑战，直接影响攻击测试的有效性和防御策略设计。本文提供的黑盒方法能显著提升安全分析的精度。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Benlong Wu, Weiming Zhang, Kejiang Chen, Han Fang, Nenghai Yu

本文针对大型语言模型从有限生成引擎向具有广泛执行权限的智能代理转型过程中出现的失控问题，提出了一种基于逻辑推理基本局限性的新型安全范式。现有防御架构主要依赖经验性语义护栏和概率性大模型裁决器，无法在复杂语义符号解耦攻击下提供确定性安全下界。为克服这一困境，作者提出了一种可执行证明约束动作（ePCA）框架，采用神经符号隔离架构。该框架放弃对自然语言的语义信任，强制代理在执行物理操作前将其意图无损形式化为一阶逻辑数学约束，从而确保决策的可验证安全性。在宏观和微观二维动态对抗系统中的实验评估表明，该形式化验证机制在评估场景中实现了零攻击成功率和零误报率，且计算延迟极低。本文为构建未来智能系统的底层防御基础提供了在明确系统假设下的条件形式化基础和工程范式。适合AI安全研究员、大模型应用开发者及安全架构师阅读。

💡 推荐理由: 首次提出可证明安全的代理护栏，通过形式化逻辑约束从根本上解决LLM代理的语义不可靠问题，为代理安全提供了确定性保障。

🎯 建议动作: 研究跟进并评估该方法在自身代理系统中的应用可行性

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

Cyber Security Daily Radar

#guardrail

Behind the Refusal: Determining Guardrail Activation via Behavioral Monitoring

Provably Secure Agent Guardrail