#multimodal

共收录 7 条相关安全情报。

← 返回所有主题
👥 作者: Tobias Braun, Jonas Henry Grebe, Hossein Shakibania, Anna Rohrbach, Marcus Rohrbach

本文首次研究了统一自回归模型(UAM)中的后门攻击漏洞。UAM是一种Transformer模型,能够在单个自回归过程中同时生成文本和图像token。其共享参数和多模态词汇简化了训练流程并支持灵活的多模态生成,但也引入了新的安全风险。作者提出了Token by Token后门攻击(ToBAC),这是首个针对UAM的后门攻击方法,涵盖基于数据和基于模型的投毒策略。攻击者可以将看似无害的字符或常见单词作为触发器,在图像生成过程中引发恶意行为,同时操纵视觉输出和伴随文本,从而提高虚假内容的可信度。在模型可访问的场景下,攻击者可以对统一Liquid模型进行攻击,使得一个微妙单词(如“cool”)在55%的生成中诱发与模态一致的品牌推广或意识形态影响。在无模型访问时,通过数据投毒即可实现攻击,对JanusPro的平均成功率达63.1%。实验表明,UAM的跨模态参数共享使得后门触发器能够跨模态传播恶意效果,这是一种新型安全威胁。本文的贡献在于揭示UAM特有的安全隐患,并展示了多模态后门攻击的可行性和有效性。

💡 推荐理由: 统一自回归模型是未来多模态AI的重要方向,本文揭示了其特有的后门攻击风险,攻击者可同时篡改文本和图像输出,对内容安全构成严重威胁。

🎯 建议动作: 跟进该研究,评估自身使用的UAM模型是否存在类似后门风险;关注后续防御技术发展。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
推荐 3.6
Conf: 50%
👥 作者: Guijia Zhang, Hao Zheng, Harry Yang

该论文提出了一种新型安全威胁:多模态智能体中的“幻觉即利用”(Hallucination as Exploit)。多模态智能体通过截图、文档、网页等视觉输入选择工具调用。当模型产生错误的视觉主张(如误认页面元素)并触发点击、邮件发送、数据提取或转账等操作时,幻觉从回答质量错误转变为授权失败。作者将此模式形式化为“幻觉到动作转换”(Hallucination-to-Action Conversion, HACR),即一个无依据的感知主张提供了特权动作看似被允许的前提条件。为防御此类攻击,论文提出了“证据携带多模态智能体”(Evidence-Carrying Multimodal Agents, ECA)。ECA 将模型自由文本视为不可采纳的证据,每个工具调用被分解为动作关键谓词,通过受限的 DOM/OCR/AX 验证器获取类型化证书,并由确定性门控仅授予证书所支持的权限。该架构不隐藏感知错误,而是将不透明的模型信念转换为命名的验证器、模式和实现残差。在超过1900次攻击的验证器红队测试中,通过四个针对性强化步骤将门绕过率从15%降至1.3%。使用内容派生证书,ECA 在200任务的端到端流水线中实现了0%不安全动作率(Wilson 95%置信区间上限2.67%),在120任务的浏览器概念验证中上限为4.3%。对500个分层任务键的HACR审计显示,无防御的智能体中不安全执行率达100.0%,仅提示防御为49.6%,而ECA为0%。Oracle证书回放在7,488个GPT-5.4基准轨迹上作为门正确性验证,神经评判基线在相同威胁模型下仍可被绕过。核心原则:模型语言可以提议动作,但外部证据必须授权它们。

💡 推荐理由: 首次系统化定义了多模态智能体中幻觉引发的安全漏洞,并提出了可落地的防御架构,对构建可信AI代理具有里程碑意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Doohee You

本文针对多模态大语言模型(MLLMs)在自主智能体工作流中面临的新型多轮多模态攻击的安全问题。传统静态防御机制受限于马尔可夫性质,逐轮独立评估输入,无法检测跨对话轨迹的累积恶意注入。为此,作者将安全验证形式化为动态生存预测与轨迹动力学问题,提出三阶异常防御(TRIAD)框架。该框架将多模态多轮对话流建模为连续轨迹,集成三大模块:结构异常检测监控协方差偏移、利用Ledoit-Wolf正则化马氏距离在高维空间检测偏移、以及拓扑轨迹加速度区分良性创造性探索与持续恶意漂移。这些运动学与几何特征通过贝叶斯隐马尔可夫模型(HMM)反馈循环输入时变Cox比例风险模型。理论分析表明,TRIAD框架能在对抗扰动下提供数学上有界的预期故障时间,确保恶意加速度正向发散。该框架为实时智能体AI系统提供了计算高效、可解释且可预测的安全保障,建立了无需经验重训练的持续安全对齐的严谨基础。

💡 推荐理由: 本论文提出了针对多轮多模态攻击的预测性防御框架,解决了现有静态防御在跨轮次累积攻击下的盲区,对智能体安全对齐具有重要理论价值和实际参考意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Chengshuai Zhao, Zhen Tan, Dawei Li, Zhiyuan Yu, Huan Liu

该论文针对大视觉语言模型(LVLM)在多模态网页数据上遭受的未授权爬取和训练问题,提出了一种名为MMGuard的主动防御方法。现有对策如机器遗忘和水印均属于事后处理,无法在知识产权侵犯发生前进行保护。MMGuard通过生成难以学习的样本(unlearnable examples),向多模态数据注入人眼不可察觉的扰动。该扰动利用LVLM的学习动态,最小化训练损失,从而创建优化捷径,使模型在训练时过度拟合噪声,而在推理时因扰动消失导致下游任务性能严重下降。为加强防御,MMGuard进一步引入跨模态绑定破坏机制,策略性地转移LVLM的注意力,强制噪声与训练目标之间产生虚假相关性,并从理论上证明了其有效性。此外,采用集成学习策略增强跨模型迁移能力,使扰动在不同LVLM架构间具有通用性。在9个开源LVLM和6个数据集上的实验表明,MMGuard在白盒、灰盒和黑盒威胁模型下均能提供有效、隐蔽且鲁棒的防护,证明其在主动防御未授权微调方面具有机制性优势。该研究适合关注数据版权保护、对抗性机器学习和多模态模型安全的研究人员与从业者阅读。

💡 推荐理由: 数据所有者面临多模态数据被未授权微调的严重风险,MMGuard提供了首个主动防御方案,可在侵权发生前阻止模型从数据中学习,对版权保护和隐私维护具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

本文介绍了 BEACON(Behavioral Engine for Authentication & Continuous Monitoring),一个大规模多模态数据集,旨在支持高保真游戏环境下的行为生物特征认证研究。背景方面,现有连续认证基准受限于小规模、单模态或缺乏同步环境上下文,难以反映真实认知与运动需求。为解决此问题,作者从战术射击游戏《Valorant》中采集数据,该游戏要求高精度运动技能和高认知负荷,为行为生物特征的鲁棒性提供了严格测试。数据集包含从 28 名玩家的 79 场游戏中收集的约 430 GB 同步模态数据(磁盘总大小 461 GB,含辅助配置),估计活跃游戏时长 102.51 小时。模态包括:高频鼠标动态(移动、点击、轨迹)、键盘事件(按键时序与组合)、网络数据包捕获(流量模式与延迟)、屏幕录像(视觉上下文)、硬件元数据(帧率、输入设备)及游戏内配置(灵敏度、键位设置)。所有模态在时间上精确同步。BEACON 可用于连续身份验证、行为画像、用户漂移检测及多模态表示学习等研究。作者在 Hugging Face 和 GitHub 上公开了数据集与代码,旨在建立可复现的基准以评估下一代行为指纹与安全模型。适合安全研究人员、行为生物特征学者、游戏数据科学家阅读。

💡 推荐理由: 该数据集提供了高精度、多模态的游戏行为数据,可模拟真实高压场景下的用户行为,有助于开发更鲁棒的连续认证方案,减少传统静态认证的局限性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Kyzyl Monteiro, Sauvik Das

访问控制是用户安全领域长期存在的挑战,核心难题在于如何让非专业用户轻松、准确地表达资源访问策略。本文提出了一种基于草图的多模态访问控制授权系统(Sketch-based Access Control, SBAC),将手绘草图的直观表达能力与多模态大语言模型(MLLM)的语义理解能力相结合,支持用户通过迭代细化的方式完成策略定义、分析与测试。作者通过一项包含14名参与者的形成性研究,提炼出三项设计需求:①允许用户以自然、非结构化的方式表达初始偏好;②提供可解释的中间反馈以帮助用户发现遗漏或不一致;③支持通过具体场景验证策略行为。基于这些需求,SBAC构建了人机协作三阶段工作流:Specify(指定)阶段,用户用草图、文字或语音混合描述策略意图,MLLM将其解析为结构化的访问控制规则;Analyze(分析)阶段,系统自动检测规则中的冲突、冗余或空窗,并通过对话引导用户澄清歧义;Test(测试)阶段,用户可输入模拟请求,系统展示策略判定结果,帮助验证是否符合预期。在另一次14名用户参与的评估中,参与者使用自身真实的访问控制场景(如家庭文件共享、团队文档权限)对系统进行测试。结果表明,SBAC帮助用户将最初模糊、不完整的偏好逐步转化为更完备、精确的策略——意外暴露了用户未预料到的权限缺口,通过自然语言对话解决了歧义,并通过具体案例验证了策略行为。该研究的核心贡献在于:①首次将草图界面引入访问控制领域,降低了策略编写的认知门槛;②提出了一种人机协同的策略精细化方法论,使非专家也能设计出意图一致的策略;③展示了多模态大模型在安全策略管理中作为“翻译器”的潜力。本文适合安全人机交互、策略管理及大语言模型应用方向的研究者和从业者阅读,尤其对构建更易用的访问控制工具具有启发意义。

💡 推荐理由: 访问控制的易用性与准确性长期矛盾,SBAC通过草图+多模态LLM的创新组合,为非专业用户提供了低门槛、高表达的策略编写方式,有望改善家庭、中小组织等场景下的权限管理实践。

🎯 建议动作: 研究跟进,关注后续可能提供的原型系统或用户研究数据,评估其在真实企业环境中的应用潜力。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mengyuan Sun, Yu Li 0006, Yunjie Ge, Yuchen Liu, Bo Du, Qian Wang 0002

本文提出了一种名为InverTune的多模态对比学习后门防御方法。多模态对比学习(如CLIP)易受后门攻击,攻击者可通过在训练数据中注入触发模式,使模型在测试时对带有触发器的样本产生恶意预测。现有防御方法通常假设攻击者仅篡改单模态或依赖干净数据,难以应对实际攻击。InverTune通过后门-对抗相关性分析(Backdoor-Adversarial Correlation Analysis)来检测并抵御后门。具体而言,该方法利用后门触发器与对抗性扰动之间的统计相关性,设计了一种新的训练范式,使模型在对比学习过程中自动抑制后门特征。实验在多个多模态数据集(如Flickr30K、MSCOCO)上验证了有效性,与现有防御相比,InverTune在保持下游任务性能的同时显著降低了后门攻击成功率,且不需要任何干净参考样本。本文主要贡献包括:首次将后门与对抗相关性引入多模态防御,提出无需干净数据的训练框架,以及在多个攻击场景下的鲁棒性验证。

💡 推荐理由: 多模态对比学习(如CLIP)被广泛用于图像检索、视觉问答等关键任务,其后门安全隐患可能被攻击者利用。InverTune提供了一种无需干净数据、通用性强的防御思路,对保护多模态AI系统具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)