#hallucination

共收录 2 条相关安全情报。

← 返回所有主题
推荐 3.6
Conf: 50%
👥 作者: Guijia Zhang, Hao Zheng, Harry Yang

该论文提出了一种新型安全威胁:多模态智能体中的“幻觉即利用”(Hallucination as Exploit)。多模态智能体通过截图、文档、网页等视觉输入选择工具调用。当模型产生错误的视觉主张(如误认页面元素)并触发点击、邮件发送、数据提取或转账等操作时,幻觉从回答质量错误转变为授权失败。作者将此模式形式化为“幻觉到动作转换”(Hallucination-to-Action Conversion, HACR),即一个无依据的感知主张提供了特权动作看似被允许的前提条件。为防御此类攻击,论文提出了“证据携带多模态智能体”(Evidence-Carrying Multimodal Agents, ECA)。ECA 将模型自由文本视为不可采纳的证据,每个工具调用被分解为动作关键谓词,通过受限的 DOM/OCR/AX 验证器获取类型化证书,并由确定性门控仅授予证书所支持的权限。该架构不隐藏感知错误,而是将不透明的模型信念转换为命名的验证器、模式和实现残差。在超过1900次攻击的验证器红队测试中,通过四个针对性强化步骤将门绕过率从15%降至1.3%。使用内容派生证书,ECA 在200任务的端到端流水线中实现了0%不安全动作率(Wilson 95%置信区间上限2.67%),在120任务的浏览器概念验证中上限为4.3%。对500个分层任务键的HACR审计显示,无防御的智能体中不安全执行率达100.0%,仅提示防御为49.6%,而ECA为0%。Oracle证书回放在7,488个GPT-5.4基准轨迹上作为门正确性验证,神经评判基线在相同威胁模型下仍可被绕过。核心原则:模型语言可以提议动作,但外部证据必须授权它们。

💡 推荐理由: 首次系统化定义了多模态智能体中幻觉引发的安全漏洞,并提出了可落地的防御架构,对构建可信AI代理具有里程碑意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Buyun Liang, Jinqi Luo, Liangzu Peng, Kwan Ho Ryan Chan, Darshan Thaker, Kaleab A. Kinfu, Fengrui Tian, Hamed Hassani, René Vidal

本文针对大型语言模型(LLM)中的幻觉现象,提出了一种新颖的对抗性攻击框架REALISTA。幻觉是指模型生成看似合理但实际错误的内容,严重影响LLM的可靠性和安全性。现有攻击方法存在局限性:基于离散提示的攻击(如人工改写)搜索空间有限,而连续潜在空间攻击虽然探索空间更大,但解码后的提示往往失去语义等价性,无法保证与用户正常提示的等效性。REALISTA将幻觉诱导形式化为一个约束优化问题,旨在找到与良性用户提示语义等价且连贯的对抗性提示。其核心创新在于构建了一个输入相关的有效编辑方向词典,每个方向对应一个语义等价且连贯的改写,然后在潜在空间中优化这些方向的连续组合。这种方法结合了连续攻击的优化灵活性和离散改写攻击的语义真实性。实验表明,REALISTA在多个开源LLM上达到或超越了现有最先进现实攻击的效果,并且成功攻击了大型推理模型(如Chain-of-Thought模型)的自由响应设置,而此前的方法在此场景下均失效。该工作揭示了LLM在面对精心设计的对抗性提示时仍存在严重的幻觉漏洞,为评估和提升LLM的安全性提供了重要工具。

💡 推荐理由: 该研究揭示了LLM在面对语义等价的对抗性提示时仍可能产生幻觉,有助于安全从业者理解模型脆弱性,并开发更鲁棒的防御机制。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)