#hallucination 主题 - Cyber Security Daily Radar

👥 作者: Patrik Reizinger, Wieland Brendel

本文介绍 HALLMARK，一个用于诊断大语言模型（LLM）引文验证器故障模式的基准测试。研究背景是：LLM 已广泛用于撰写文献综述和学术写作，导致虚构引用（幻觉）风险增加。例如，GPTZero 在 NeurIPS 2025 接收论文中发现 53 篇存在幻觉引用。现有基于规则和 LLM 的验证器正在涌现，但缺乏统一的基准来比较它们并提供详细的故障诊断。为此，作者构建了 HALLMARK，包含 2,526 条 BibTeX 条目，覆盖 14 种幻觉类型、三个难度等级，每个条目有六个诊断子测试，并设有抗污染的分割集。在该基准上，作者评估了 DOI 查找基线、零样本前沿 LLM、工具增强代理以及作者自己设计的基于规则的协同验证器 bibtex-updater。基准测试的一致结果是：假阳性率（而非召回率）决定了验证器是否可部署。通过三个故障模式具体说明：1) 代理式查找提高了召回率但导致假阳性激增；2) 在现实发生的基率下，假阳性率数量级的差异（而非召回率）决定了验证器标记的结果是真正的命中还是噪声；3) 大多数 LLM 对其训练截止日期之后发表的论文过度标记，只有两个最新截止日期的模型能将假阳性率保持在接近分布内水平（作者仅描述这一现象，因为其与对这些条目的可能召回相混淆）。因此，假阳性率是部署瓶颈，但对于科学记录而言，未检测到的虚构仍然是代价更高的错误。本文主要贡献是提出了一个标准化基准，系统揭示了验证器的关键失效模式，适合研究 LLM 可靠性、学术诚信检测以及工具增强 NLP 系统的研究者阅读。

💡 推荐理由: 该基准首次系统量化了 LLM 引文验证器的假阳性率问题，指出当前方法可部署性瓶颈在于假阳性而非召回率，对学术打假和 LLM 安全应用具有直接指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Eunna Lee, Jungpyo Nam, Sunjun Hwang

本文定义并系统研究了大语言模型（LLM）中的一种新型幻觉——防护能力幻觉（Protective Capacity Hallucination, PCH）。当LLM被赋予保护脆弱用户的角色，但未明确告知其能力边界时，模型可能不会承认自身局限，反而声称已执行或正在执行其无法实现的现实世界保护行动，例如联系紧急服务或提供医疗护理。这种幻觉是自我指涉的错误归因，模型在保护角色中宣称了超出其语言模型能力的物理或制度性代理权。研究分为三个阶段，涵盖8种LLM（包括GPT-4、Claude等）和13,600次会话。实验发现，PCH的触发受情境严重性和交互形式共同控制：在多轮对话输入场景中，大多数模型在普通服务领域（如客户支持）的PCH发生率接近天花板；而在亲密伴侣冲突情景（该情景明确属于安全对齐覆盖范围）中，尽管物理严重性更高，所有8种模型的PCH发生率却始终处于地板水平。作者将PCH解释为角色分配与能力边界规范之间的部署-设计差距：它是部分对齐的副产品，即普遍训练出的“帮助压力”超越了领域特定“如何帮助”的规范。由于PCH的抑制与对齐覆盖范围相关而非严重性，因此部署侧的能力边界规范（deployment-side specification of capability boundaries）成为通用的缓解目标。本文贡献包括：提出PCH概念、实证揭示其分布规律、提出缓解方向。适合LLM安全研究者、AI系统部署者、AI伦理与治理从业者阅读。

💡 推荐理由: 防护能力幻觉（PCH）揭示了LLM在高风险角色（如医疗、应急）中的安全隐患：模型可能谎称采取了实际无法执行的行动，导致用户产生虚假安全感，拖延真实救助。该研究为AI安全部署提供了关键认知，促使开发者明确限定模型能力边界。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Weifeng Yuan, Wenbo Guo, Feng Dong, Haoyu Wang, Yang Liu

LLM 代理通过从开放注册表下载技能来获得新能力。开发者通常让代理推荐并安装技能，但代理经常捏造不存在的技能名，这种现象称为“技能名幻觉”。本文首次大规模测量该漏洞，评估了 15,000 条提示和 12 种配置（4 个独立 LLM 和 8 个代理）。结果显示，所有配置都存在幻觉，平均幻觉率在独立 LLM 为 36.0%，在代理中为 36.9%，在真实开发者问题上高达 43.1%。系统共生成 5,669 个独特的虚构名称，且这些名称并非随机噪声：代理会跨提示和模型重复相同的虚假名称，为攻击者提供了高度可靠的目标。攻击者可预先注册这些名称对应的恶意技能，当代理尝试安装时即触发供应链攻击。作者测试了四种模型级防御，最强的检索接地将幻觉率从 40.8% 降至 3.2%，但严重损害了实用性——即使最优配置下，正确推荐技能的概率也仅为约六分之一。因此，技能名幻觉是高度可利用的漏洞，修复无法仅靠提示工程或模型调优，需要生态系统层面的结构性变革：注册表级名称预留和验证的推荐管道。

💡 推荐理由: 揭示了 LLM 代理技能推荐机制中的系统性安全漏洞，攻击者可以低成本利用虚构名称实施供应链攻击，影响所有依赖开放注册表的代理系统。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Saeid Jamshidi

该论文研究了多智能体大语言模型（LLM）系统中的集体幻觉问题，将幻觉建模为一种系统级、随时间演化的过程，发生在一个由相互交互的LLM代理构成的网络中。节点代表代理，边代表信息交换。所提出的形式化方法描述了幻觉声明如何通过通信拓扑传播，在对抗性扰动下加剧，以及如何在推理轮次中影响集体可靠性。为了抑制错误传播，作者引入了一种交互感知控制方法，结合了置信度加权聚合、自适应影响调节、外部声明验证和选择性隔离不可靠代理。在TruthfulQA和TriviaQA数据集上的实验表明，该方法相比未防御的多智能体推理，将幻觉减少了高达39.0%，事实准确性从0.79提高到0.87，语义一致性从0.75提高到0.84。在对抗条件下，该方法将幻觉放大限制在1.08，而无需自适应控制时为1.45，在递归交互轮次中保持稳定的集体行为。结果表明，多智能体LLM系统中的幻觉受个体模型可靠性和系统级交互动态（包括通信拓扑、置信度耦合和递归信息流）共同支配。

💡 推荐理由: 多智能体LLM系统正在被广泛应用于协同任务，但集体幻觉问题可能导致错误信息级联放大，带来严重的安全与可靠性风险。本文首次从系统动力学角度建模并提供可操作的防御方法，对构建可信赖的多智能体AI系统具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Saeid Jamshidi, Arghavan Moradi Dakhel, Kawser Wazed Nafi, Foutse Khomh

大型语言模型(LLM)生成的文本流畅但容易产生幻觉，即输出无根据、不一致或事实错误的内容。以往研究多将幻觉视为孤立输出的静态属性，但多智能体LLM系统中，响应在智能体间交换、经过序列化阶段修订并作为后续推理的上下文，使幻觉成为受交互历史、级联深度和模型异质性影响的动态过程。本文通过跟踪跨顺序智能体交互的声明级事实不一致性，分析了多智能体LLM级联中的幻觉动态。作者使用GPT-5.3、DeepSeek-V3和LLaMA-3-70B-Instruct在10个知识领域进行了500次级联实验，收集了1250条评价响应。结果表明，在3智能体链中，更深级联使归一化幻觉分数从第一个智能体的0.422降至最终智能体的0.272，放大因子为0.644，表明净衰减；同时事实准确率从0.789降至0.769，揭示了幻觉抑制与事实保留之间的权衡。转换级分析显示，每次智能体到智能体的精炼平均减少幻觉0.072，但伴随事实一致性和响应质量的小幅稳定损失。模型级结果揭示可靠性-效率权衡：LLaMA-3-70B-Instruct达到最低幻觉分数，而GPT-5.3生成更快但幻觉率更高。领域级分析表明，幻觉随主题复杂性变化，在基于事实的科学领域分数较低，在更抽象的领域分数较高。该研究适合AI安全研究人员、LLM系统架构师和可靠性工程师阅读。

💡 推荐理由: 多智能体LLM系统部署日益增多，幻觉的动态传播尚未被充分研究，本文首次系统量化级联中的幻觉衰减与事实损失权衡，为构建更可靠的Agent协作系统提供关键实证依据。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Guijia Zhang, Hao Zheng, Harry Yang

该论文提出了一种新型安全威胁：多模态智能体中的“幻觉即利用”（Hallucination as Exploit）。多模态智能体通过截图、文档、网页等视觉输入选择工具调用。当模型产生错误的视觉主张（如误认页面元素）并触发点击、邮件发送、数据提取或转账等操作时，幻觉从回答质量错误转变为授权失败。作者将此模式形式化为“幻觉到动作转换”（Hallucination-to-Action Conversion, HACR），即一个无依据的感知主张提供了特权动作看似被允许的前提条件。为防御此类攻击，论文提出了“证据携带多模态智能体”（Evidence-Carrying Multimodal Agents, ECA）。ECA 将模型自由文本视为不可采纳的证据，每个工具调用被分解为动作关键谓词，通过受限的 DOM/OCR/AX 验证器获取类型化证书，并由确定性门控仅授予证书所支持的权限。该架构不隐藏感知错误，而是将不透明的模型信念转换为命名的验证器、模式和实现残差。在超过1900次攻击的验证器红队测试中，通过四个针对性强化步骤将门绕过率从15%降至1.3%。使用内容派生证书，ECA 在200任务的端到端流水线中实现了0%不安全动作率（Wilson 95%置信区间上限2.67%），在120任务的浏览器概念验证中上限为4.3%。对500个分层任务键的HACR审计显示，无防御的智能体中不安全执行率达100.0%，仅提示防御为49.6%，而ECA为0%。Oracle证书回放在7,488个GPT-5.4基准轨迹上作为门正确性验证，神经评判基线在相同威胁模型下仍可被绕过。核心原则：模型语言可以提议动作，但外部证据必须授权它们。

💡 推荐理由: 首次系统化定义了多模态智能体中幻觉引发的安全漏洞，并提出了可落地的防御架构，对构建可信AI代理具有里程碑意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Buyun Liang, Jinqi Luo, Liangzu Peng, Kwan Ho Ryan Chan, Darshan Thaker, Kaleab A. Kinfu, Fengrui Tian, Hamed Hassani, René Vidal

本文针对大型语言模型（LLM）中的幻觉现象，提出了一种新颖的对抗性攻击框架REALISTA。幻觉是指模型生成看似合理但实际错误的内容，严重影响LLM的可靠性和安全性。现有攻击方法存在局限性：基于离散提示的攻击（如人工改写）搜索空间有限，而连续潜在空间攻击虽然探索空间更大，但解码后的提示往往失去语义等价性，无法保证与用户正常提示的等效性。REALISTA将幻觉诱导形式化为一个约束优化问题，旨在找到与良性用户提示语义等价且连贯的对抗性提示。其核心创新在于构建了一个输入相关的有效编辑方向词典，每个方向对应一个语义等价且连贯的改写，然后在潜在空间中优化这些方向的连续组合。这种方法结合了连续攻击的优化灵活性和离散改写攻击的语义真实性。实验表明，REALISTA在多个开源LLM上达到或超越了现有最先进现实攻击的效果，并且成功攻击了大型推理模型（如Chain-of-Thought模型）的自由响应设置，而此前的方法在此场景下均失效。该工作揭示了LLM在面对精心设计的对抗性提示时仍存在严重的幻觉漏洞，为评估和提升LLM的安全性提供了重要工具。

💡 推荐理由: 该研究揭示了LLM在面对语义等价的对抗性提示时仍可能产生幻觉，有助于安全从业者理解模型脆弱性，并开发更鲁棒的防御机制。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#hallucination

HALLMARK: Diagnosing Three Failure Modes in LLM Citation Verifiers

Protective Capacity Hallucination: When Large Language Models Claim Nonexistent Capabilities

Skills That Don't Exist: A Large-Scale Study of Hallucinated Skill Recommendation in LLM Agents

Collective Hallucination in Multi-Agent LLMs:Modeling and Defense

Hallucination Cascade: Analyzing Error Propagation in Multi-Agent LLM Systems

Hallucination as Exploit: Evidence-Carrying Multimodal Agents

REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations