#multimodal 主题 - Cyber Security Daily Radar

👥 作者: Halima Bouzidi, Mboutidem Ekemini Mkpong, Mohammad Abdullah Al Faruque

多模态AI代理越来越依赖持久性长期记忆来在视觉和文本上下文中进行生成。本文揭示了对视觉数据的无条件信任是一个关键安全漏洞。作者提出了Lucid，一个黑盒对抗性框架，在严格的图像受限威胁模型下攻击多模态记忆管道，无需访问目标多模态大模型（MLLM）、目标检索编码器或文本通道。Lucid通过构建人眼不可察觉的扰动，实现了两种不同的故障模式：1）记忆投毒（in-context攻击）：用对抗图像替换被先前文本上下文强化内容的良性图像，可靠地破坏视觉回忆，将代理引导至攻击者选择的叙事；2）记忆注入（out-of-context攻击）：在缺乏先前文本基础的对话轮次中替换良性图像，导致代理生成受攻击者影响的回应，且无来自记忆的纠正信号。实验在多种对话领域和五种黑盒记忆架构（包括图结构化、LLM总结型以及商业部署系统）上进行，Lucid在投毒攻击上达到61.6%的攻击成功率（ASR），在注入攻击上达到58.4%的ASR，暴露了多模态记忆管道中的结构性脆弱点。本研究适合AI安全研究员、多模态系统开发者及防御者阅读。

💡 推荐理由: 首次系统性地证明多模态AI代理长期记忆中的视觉通道可被黑盒操纵，导致代理输出被攻击者控制的内容。这对依赖视觉上下文的企业级AI助手的可信度构成实质性威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Baogang Song, Zhongshu Zhao, Qianrong Zheng, Jianwen Xiang, Dongdong Zhao

针对生物特征模板保护（BTP）中存在的可比较表示泄露、辅助数据依赖、与具体模态耦合等问题，本文提出了一种名为多置换标签分类器编码（MPLCE）的新方法。其核心思想是利用身份分类的固有特性——将变化的生物特征样本映射到稳定且具判别性的身份级输出。MPLCE 为每个分类器分配独立的标签置换，使得同一身份在不同分类器中被赋予不同标签；将这些预测标签编码并拼接形成中间模板，然后与特定应用的异或字符串随机化，最后进行密码学哈希。这一设计避免了单个身份标签的重复编码，扩大了有效候选空间，同时通过分类一致性保证准确率。由于采用加密哈希精确匹配验证，无需纠错码或依赖生物特征的辅助数据。MPLCE 支持多种模态，只需替换相应分类器即可。在四个面部数据集（如 YTF、CASIA-WebFace 等）和两个虹膜数据集（CASIA-Iris-Lamp 等）上，MPLCE 取得了具有竞争力的性能：在 YTF 上误识率（FAR）为 5.51×10⁻⁵% 时识别率（GAR）达 98.61%；在 CASIA-Iris-Lamp 上 FAR 为 0.00% 时 GAR 达 99.10%。安全性分析验证了在威胁模型下模板的不可逆性、可撤销性和不可链接性。该方法为生物特征模板保护提供了一种理论新颖且实践可行的方案，尤其适用于需要高安全等级的跨境认证、金融支付等场景。

💡 推荐理由: 提出了无需辅助数据、跨模态兼容的生物特征保护方案，通过哈希精确匹配避免了传统方法中的相似性结构泄露风险，对提升生物识别系统安全性有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Reshabh K. Sharma, Vinayak Gupta, Dan Grossman

本文聚焦于多模态大语言模型（MLLM）面临的基于图像的提示注入攻击防御问题。随着聊天机器人系统广泛支持图像与文本混合输入，攻击者可通过恶意构造的图像绕过文本层面的安全机制，而现有防御手段仅针对文本数据，对此类攻击几乎无效。为此，作者提出了一种新颖的两阶段防御框架：第一阶段为输入验证，在用户输入到达聊天机器人之前，利用用户提供的规范识别潜在不安全图像；第二阶段为提示注入检测，对已进入MLLM主干的图像进行深度分析，抵御恶意攻击。框架核心是一个面向安全聊天机器人定义的领域特定语言（DSL），允许用户制定图像输入的安全规格。在GPT-4VISION和LLAVA等模型上的实验表明，单纯依赖模型自身鲁棒性难以防御，而本方法能显著提升恶意攻击检测率，同时保持较低误报率。论文贡献在于：首次系统研究MLLM图像提示注入防御、提出可定制的两阶段方案、以及展示DSL在安全规范表达上的灵活性。适合关注多模态AI安全、提示注入防御以及人机交互可靠性的研究人员和工程师阅读。

💡 推荐理由: 针对多模态大模型图像提示注入这一新兴且防护薄弱的安全威胁，本文提出了首个系统化的定制防御框架，填补了现有方法仅处理文本的空白，对保障图像对话类AI应用的安全性具有重要参考价值。

🎯 建议动作: 研究跟进，评估该方法在自身环境中的适用性。

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Refat Ishrak Hemel, Ehsan Hallaji, Roozbeh Razavi-Far

该论文提出了TSAI-MetaFraud，一个面向元宇宙生态系统金融欺诈交易和行为风险检测的多模态、多任务基准数据集。随着元宇宙平台虚拟经济的发展，欺诈、机器人和非法金融行为等新挑战日益突出。现有数据集通常孤立地关注用户行为、身份验证或金融交易，限制了多模态欺诈检测方法的开发和可重复评估。为此，TSAI-MetaFraud整合了行为、交易和图结构信息，同时包含现实的欺诈和自动化机器人场景。论文定义了多个基准任务，包括交易欺诈检测、跨模态节点分类、时序链路预测和弱监督欺诈检测，并利用机器学习和图神经网络模型提供了基线评估。该数据集通过统一虚拟经济中行为活动、金融交互和关系结构的联合捕获，为推进多模态学习、图挖掘、欺诈分析和可信AI在元宇宙生态系统中的应用提供了基准。适合对元宇宙安全、金融欺诈检测、多模态学习感兴趣的研究人员阅读。

💡 推荐理由: 元宇宙经济欺诈问题日益严重，但缺乏统一的多模态基准数据集。本数据集填补了这一空白，能推动可重复研究，帮助安全社区开发更有效的欺诈检测方法。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Sally Junsong Wang, Kexin Pei, Junfeng Yang

智能合约是区块链上执行各种商业活动的软件程序。近年研究发现了一类新的“机器不可审计”漏洞，它们源于源代码未能满足底层交易上下文。现有检测方法需要人工理解交易逻辑并手动推理不同上下文来源（即模态），例如代码和描述预期交易行为的自然语言。为了自动化检测这类漏洞，本文提出了SmartInv，一个准确且高效的智能合约不变量推断框架。核心洞见在于，智能合约的预期行为（通过不变量指定）依赖于跨模态信息的理解和推理，如源代码和自然语言。作者提出了一种新的基础模型微调和提示策略——Tier of Thought (ToT)，用于在智能合约的多个模态间进行推理并生成不变量。SmartInv随后通过检查这些生成不变量的违反情况来定位潜在漏洞。实验评估基于过去2.5年（2021年1月1日至2023年5月31日）导致财务损失的真实世界智能合约漏洞，结果表明SmartInv能生成有效不变量，准确定位“机器不可审计”漏洞，共发现119个零日漏洞。从中采样了8个漏洞报告给相应开发者，其中6个被迅速修复，5个被确认为“高严重性”。该研究展示了利用多模态大模型自动推理智能合约安全性的可行性和有效性。

💡 推荐理由: 该研究提出了一种自动化检测智能合约中新型“机器不可审计”漏洞的方法，填补了现有工具依赖人工的空白，对提升区块链应用安全性具有实用价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yv Zhang, Hao Sun, Hao Fang, Kuofeng Gao, Fan Mo, Bin Chen, Shu-Tao Xia, Yaowei Wang

本文研究了多模态Web智能体（Web Agent）中外部记忆组件（External Memory）的安全漏洞。现代Web智能体通常依赖外部记忆来存储长期经验，通过检索历史记录实现长程推理。然而，这种架构引入了一个关键风险：恶意内容若被注入记忆，可能在后续交互中被持续召回并反复影响智能体行为。作者系统性地识别并研究了多模态记忆投毒（Multimodal Memory Poisoning）这一此前被忽视的攻击面，并提出了一个统一的黑盒攻击框架MemVenom。该框架针对图结构的外部记忆，利用文本-图像协同证据进行投毒。其设计包含两个阶段：第一阶段是触发器条件检索攻击（Trigger-conditioned Retrieval Attack），确保恶意记忆以高概率被召回；第二阶段是检索后诱导攻击（Post-retrieval Attack Induction），通过对抗性扰动和隐蔽OCR注入覆盖用户原始目标。与以往基于提示或纯文本记忆的攻击不同，MemVenom无需修改模型参数或重新优化恶意任务，即可实现持久、可复用且目标无关的攻击。在多种Web智能体框架和视觉语言模型上的实验表明，MemVenom在GPT-5系列Web智能体上达到最高99.15%的成功率，且对良性性能影响极小，并在不同架构和模型规模间具有良好的迁移性。

💡 推荐理由: 首次系统性地揭示了多模态Web智能体外部记忆组件中的投毒攻击面，对依赖记忆的AI系统安全具有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Prateek Paudel, Nitin Jha, Abhishek Parakh

这篇论文研究了一种跨模态分割载荷的视听隐写术，并评估了其对抗单模态与多模态隐写分析的效果。隐写术的目标是将秘密信息隐藏在普通媒体中，以隐藏通信的存在而非内容。传统的单模态隐写将载荷嵌入到单一载体（例如图像、音频或视频）中，但存在容量限制和容易被检测的问题。作者提出将秘密信息分割后分别嵌入到视频的音频流和视频流中，从而降低每个载体的嵌入负担，旨在提高隐蔽性。实验条件下，作者创建了同步和异步嵌入两种场景的视听样本，并测试了单模态（仅音频或仅视频）检测器以及多模态检测器的检测性能。结果表明，单模态检测器的检测率接近随机猜测，表明分割载荷能够有效规避单模态分析。而多模态检测器在初步测试中表现更佳，但进一步分析发现这种提升主要来自于视频流中的信号，而非真正的音频-视频联合特征。因此，作者强调，多模态检测器的评估需谨慎，以确保其学习到了跨模态的相关性而不是单一模态的伪影。总体而言，该研究表明分割载荷策略能增强隐写的抗检测性，但多模态检测方法仍有改进空间。该论文适合信息安全领域的研究人员，尤其是关注隐写术和隐写分析的学者阅读。

💡 推荐理由: 该研究揭示了分割载荷隐写术对抗检测的有效性，并指出当前多模态检测器的局限性，对设计更健壮的隐写分析系统具有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Xiang Yang, Feifei Li, Mi Zhang, Geng Hong, Xiaoyu You, Mi Wen, Min Yang

该论文聚焦于多模态扩散变换器（DiT）中图像生成的安全性问题。尽管DiT结合多模态注意力（MM-Attn）已成为图像生成的主流架构，但在图像到图像（I2I）编辑等任务中，防止生成有害内容仍是一大挑战。现有安全机制多针对文本到图像（T2I）合成或U-Net架构，难以有效应用于基于DiT的统一安全缓解。为此，作者提出无需训练的安全生成框架——统一视觉安全调节器（UVR），通过限制不安全信息流来调控生成图像中的不安全语义。UVR基于对MM-Attn中信息流视角的注意力动态分析，发现一个与任务无关的启动阶段，在该阶段输出补丁中的不安全语义快速涌现并可被精确定位；随后进入任务特定的语义放大和干扰阶段，有害信号进一步传播并与良性内容纠缠。基于此观察，UVR通过对识别的不安全输出补丁实施统一的、目标性的注意力调制，并明确限制有害信息流，从而缓解不安全生成。实验涵盖多种概念，结果显示UVR在图像合成和编辑任务中分别达到91%和77%的擦除率，同时最小化视觉质量损失。代码已开源。该工作适用于图像生成安全、多模态模型对齐等方向的研究者。

💡 推荐理由: 提出了一种无需微调即可统一应用于图像生成与编辑任务的安全方法，基于注意力机制的信息流分析，为多模态扩散模型的安全对齐提供了新范式。

🎯 建议动作: 研究跟进

排序因子: 有可用补丁/修复方案 (+3) | 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yuan Tian, Bing Hu, Fang Wu, Xiaomin Li, Binghang Lu, Neil Zhenqiang Gong

本文研究了大型视觉语言模型（LVLM）中新兴的“伴随图像思考”（think-with-image）推理范式的安全性，特别是其对多模态越狱（jailbreak）鲁棒性的影响。现有系统已包含多种流程设计，如直接响应生成、纯文本前置回合、视觉状态操作以及显式外部图像工具调用。作者通过实验评估了这些范式在多模态越狱攻击下的鲁棒性，发现显式图像工具交互范式能够显著降低攻击成功率，在多个模型上平均相对降低约30%。这一发现最初令人惊讶，因为即使返回的图像工具输出被手动覆盖或本身看起来不安全，攻击成功率仍然较低，但在纯文本前置回合控制下会恢复到接近直接回答的水平。这表明低攻击成功率并非由返回图像的良性语义或文本图像工具痕迹单独解释。为了解释这一现象，作者引入了图像工具安全向量框架，将图像工具调用建模为隐藏表示向安全相关方向的残差偏移。基于表示层面的分析和激活干预实验支持了这一解释。总体而言，该研究表明显式图像工具交互是提高越狱鲁棒性的一种有前景的设计模式，同时促使对流程特定安全评估的需求。本文适合关注大模型安全、多模态AI系统风险及防御策略的研究者和安全工程师阅读。

💡 推荐理由: 多模态大模型正广泛部署，但其推理流程中的安全隐患尚不明晰。本文系统揭示了“显式图像工具调用”能显著提升越狱鲁棒性，为设计更安全的多模态系统提供了可操作方向，值得安全从业者关注。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Tobias Braun, Jonas Henry Grebe, Hossein Shakibania, Anna Rohrbach, Marcus Rohrbach

本文首次研究了统一自回归模型（UAM）中的后门攻击漏洞。UAM是一种Transformer模型，能够在单个自回归过程中同时生成文本和图像token。其共享参数和多模态词汇简化了训练流程并支持灵活的多模态生成，但也引入了新的安全风险。作者提出了Token by Token后门攻击（ToBAC），这是首个针对UAM的后门攻击方法，涵盖基于数据和基于模型的投毒策略。攻击者可以将看似无害的字符或常见单词作为触发器，在图像生成过程中引发恶意行为，同时操纵视觉输出和伴随文本，从而提高虚假内容的可信度。在模型可访问的场景下，攻击者可以对统一Liquid模型进行攻击，使得一个微妙单词（如“cool”）在55%的生成中诱发与模态一致的品牌推广或意识形态影响。在无模型访问时，通过数据投毒即可实现攻击，对JanusPro的平均成功率达63.1%。实验表明，UAM的跨模态参数共享使得后门触发器能够跨模态传播恶意效果，这是一种新型安全威胁。本文的贡献在于揭示UAM特有的安全隐患，并展示了多模态后门攻击的可行性和有效性。

💡 推荐理由: 统一自回归模型是未来多模态AI的重要方向，本文揭示了其特有的后门攻击风险，攻击者可同时篡改文本和图像输出，对内容安全构成严重威胁。

🎯 建议动作: 跟进该研究，评估自身使用的UAM模型是否存在类似后门风险；关注后续防御技术发展。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Guijia Zhang, Hao Zheng, Harry Yang

该论文提出了一种新型安全威胁：多模态智能体中的“幻觉即利用”（Hallucination as Exploit）。多模态智能体通过截图、文档、网页等视觉输入选择工具调用。当模型产生错误的视觉主张（如误认页面元素）并触发点击、邮件发送、数据提取或转账等操作时，幻觉从回答质量错误转变为授权失败。作者将此模式形式化为“幻觉到动作转换”（Hallucination-to-Action Conversion, HACR），即一个无依据的感知主张提供了特权动作看似被允许的前提条件。为防御此类攻击，论文提出了“证据携带多模态智能体”（Evidence-Carrying Multimodal Agents, ECA）。ECA 将模型自由文本视为不可采纳的证据，每个工具调用被分解为动作关键谓词，通过受限的 DOM/OCR/AX 验证器获取类型化证书，并由确定性门控仅授予证书所支持的权限。该架构不隐藏感知错误，而是将不透明的模型信念转换为命名的验证器、模式和实现残差。在超过1900次攻击的验证器红队测试中，通过四个针对性强化步骤将门绕过率从15%降至1.3%。使用内容派生证书，ECA 在200任务的端到端流水线中实现了0%不安全动作率（Wilson 95%置信区间上限2.67%），在120任务的浏览器概念验证中上限为4.3%。对500个分层任务键的HACR审计显示，无防御的智能体中不安全执行率达100.0%，仅提示防御为49.6%，而ECA为0%。Oracle证书回放在7,488个GPT-5.4基准轨迹上作为门正确性验证，神经评判基线在相同威胁模型下仍可被绕过。核心原则：模型语言可以提议动作，但外部证据必须授权它们。

💡 推荐理由: 首次系统化定义了多模态智能体中幻觉引发的安全漏洞，并提出了可落地的防御架构，对构建可信AI代理具有里程碑意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Doohee You

本文针对多模态大语言模型（MLLMs）在自主智能体工作流中面临的新型多轮多模态攻击的安全问题。传统静态防御机制受限于马尔可夫性质，逐轮独立评估输入，无法检测跨对话轨迹的累积恶意注入。为此，作者将安全验证形式化为动态生存预测与轨迹动力学问题，提出三阶异常防御（TRIAD）框架。该框架将多模态多轮对话流建模为连续轨迹，集成三大模块：结构异常检测监控协方差偏移、利用Ledoit-Wolf正则化马氏距离在高维空间检测偏移、以及拓扑轨迹加速度区分良性创造性探索与持续恶意漂移。这些运动学与几何特征通过贝叶斯隐马尔可夫模型（HMM）反馈循环输入时变Cox比例风险模型。理论分析表明，TRIAD框架能在对抗扰动下提供数学上有界的预期故障时间，确保恶意加速度正向发散。该框架为实时智能体AI系统提供了计算高效、可解释且可预测的安全保障，建立了无需经验重训练的持续安全对齐的严谨基础。

💡 推荐理由: 本论文提出了针对多轮多模态攻击的预测性防御框架，解决了现有静态防御在跨轮次累积攻击下的盲区，对智能体安全对齐具有重要理论价值和实际参考意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chengshuai Zhao, Zhen Tan, Dawei Li, Zhiyuan Yu, Huan Liu

该论文针对大视觉语言模型（LVLM）在多模态网页数据上遭受的未授权爬取和训练问题，提出了一种名为MMGuard的主动防御方法。现有对策如机器遗忘和水印均属于事后处理，无法在知识产权侵犯发生前进行保护。MMGuard通过生成难以学习的样本（unlearnable examples），向多模态数据注入人眼不可察觉的扰动。该扰动利用LVLM的学习动态，最小化训练损失，从而创建优化捷径，使模型在训练时过度拟合噪声，而在推理时因扰动消失导致下游任务性能严重下降。为加强防御，MMGuard进一步引入跨模态绑定破坏机制，策略性地转移LVLM的注意力，强制噪声与训练目标之间产生虚假相关性，并从理论上证明了其有效性。此外，采用集成学习策略增强跨模型迁移能力，使扰动在不同LVLM架构间具有通用性。在9个开源LVLM和6个数据集上的实验表明，MMGuard在白盒、灰盒和黑盒威胁模型下均能提供有效、隐蔽且鲁棒的防护，证明其在主动防御未授权微调方面具有机制性优势。该研究适合关注数据版权保护、对抗性机器学习和多模态模型安全的研究人员与从业者阅读。

💡 推荐理由: 数据所有者面临多模态数据被未授权微调的严重风险，MMGuard提供了首个主动防御方案，可在侵权发生前阻止模型从数据中学习，对版权保护和隐私维护具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

本文介绍了 BEACON（Behavioral Engine for Authentication & Continuous Monitoring），一个大规模多模态数据集，旨在支持高保真游戏环境下的行为生物特征认证研究。背景方面，现有连续认证基准受限于小规模、单模态或缺乏同步环境上下文，难以反映真实认知与运动需求。为解决此问题，作者从战术射击游戏《Valorant》中采集数据，该游戏要求高精度运动技能和高认知负荷，为行为生物特征的鲁棒性提供了严格测试。数据集包含从 28 名玩家的 79 场游戏中收集的约 430 GB 同步模态数据（磁盘总大小 461 GB，含辅助配置），估计活跃游戏时长 102.51 小时。模态包括：高频鼠标动态（移动、点击、轨迹）、键盘事件（按键时序与组合）、网络数据包捕获（流量模式与延迟）、屏幕录像（视觉上下文）、硬件元数据（帧率、输入设备）及游戏内配置（灵敏度、键位设置）。所有模态在时间上精确同步。BEACON 可用于连续身份验证、行为画像、用户漂移检测及多模态表示学习等研究。作者在 Hugging Face 和 GitHub 上公开了数据集与代码，旨在建立可复现的基准以评估下一代行为指纹与安全模型。适合安全研究人员、行为生物特征学者、游戏数据科学家阅读。

💡 推荐理由: 该数据集提供了高精度、多模态的游戏行为数据，可模拟真实高压场景下的用户行为，有助于开发更鲁棒的连续认证方案，减少传统静态认证的局限性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Kyzyl Monteiro, Sauvik Das

访问控制是用户安全领域长期存在的挑战，核心难题在于如何让非专业用户轻松、准确地表达资源访问策略。本文提出了一种基于草图的多模态访问控制授权系统（Sketch-based Access Control, SBAC），将手绘草图的直观表达能力与多模态大语言模型（MLLM）的语义理解能力相结合，支持用户通过迭代细化的方式完成策略定义、分析与测试。作者通过一项包含14名参与者的形成性研究，提炼出三项设计需求：①允许用户以自然、非结构化的方式表达初始偏好；②提供可解释的中间反馈以帮助用户发现遗漏或不一致；③支持通过具体场景验证策略行为。基于这些需求，SBAC构建了人机协作三阶段工作流：Specify（指定）阶段，用户用草图、文字或语音混合描述策略意图，MLLM将其解析为结构化的访问控制规则；Analyze（分析）阶段，系统自动检测规则中的冲突、冗余或空窗，并通过对话引导用户澄清歧义；Test（测试）阶段，用户可输入模拟请求，系统展示策略判定结果，帮助验证是否符合预期。在另一次14名用户参与的评估中，参与者使用自身真实的访问控制场景（如家庭文件共享、团队文档权限）对系统进行测试。结果表明，SBAC帮助用户将最初模糊、不完整的偏好逐步转化为更完备、精确的策略——意外暴露了用户未预料到的权限缺口，通过自然语言对话解决了歧义，并通过具体案例验证了策略行为。该研究的核心贡献在于：①首次将草图界面引入访问控制领域，降低了策略编写的认知门槛；②提出了一种人机协同的策略精细化方法论，使非专家也能设计出意图一致的策略；③展示了多模态大模型在安全策略管理中作为“翻译器”的潜力。本文适合安全人机交互、策略管理及大语言模型应用方向的研究者和从业者阅读，尤其对构建更易用的访问控制工具具有启发意义。

💡 推荐理由: 访问控制的易用性与准确性长期矛盾，SBAC通过草图+多模态LLM的创新组合，为非专业用户提供了低门槛、高表达的策略编写方式，有望改善家庭、中小组织等场景下的权限管理实践。

🎯 建议动作: 研究跟进，关注后续可能提供的原型系统或用户研究数据，评估其在真实企业环境中的应用潜力。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Mengyuan Sun, Yu Li 0006, Yunjie Ge, Yuchen Liu, Bo Du, Qian Wang 0002

本文提出了一种名为InverTune的多模态对比学习后门防御方法。多模态对比学习（如CLIP）易受后门攻击，攻击者可通过在训练数据中注入触发模式，使模型在测试时对带有触发器的样本产生恶意预测。现有防御方法通常假设攻击者仅篡改单模态或依赖干净数据，难以应对实际攻击。InverTune通过后门-对抗相关性分析（Backdoor-Adversarial Correlation Analysis）来检测并抵御后门。具体而言，该方法利用后门触发器与对抗性扰动之间的统计相关性，设计了一种新的训练范式，使模型在对比学习过程中自动抑制后门特征。实验在多个多模态数据集（如Flickr30K、MSCOCO）上验证了有效性，与现有防御相比，InverTune在保持下游任务性能的同时显著降低了后门攻击成功率，且不需要任何干净参考样本。本文主要贡献包括：首次将后门与对抗相关性引入多模态防御，提出无需干净数据的训练框架，以及在多个攻击场景下的鲁棒性验证。

💡 推荐理由: 多模态对比学习（如CLIP）被广泛用于图像检索、视觉问答等关键任务，其后门安全隐患可能被攻击者利用。InverTune提供了一种无需干净数据、通用性强的防御思路，对保护多模态AI系统具有重要实践价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#multimodal

Do Agents Dream of False Memories? Black-box Visual Attacks on Long-term Memory in Multimodal AI Agents

From Classification to Consistent Templates: Multiple Permuted-Label Classifier Encoding for Biometric Template Protection

Defending Language Models Against Image-Based Prompt Attacks via User-Provided Specifications.

TSAI-MetaFraud: A Benchmark Dataset for Financial Fraud Transaction and Behavioral Risk Detection in Metaverse Ecosystems

SmartInv: Multimodal Learning for Smart Contract Invariant Inference.

MemVenom: Triggered Poisoning of Multimodal Memories in Web Agents

Evaluating Multimodal Steganalysis for Split-Payload Audiovisual Steganography

Unified Safe In-context Image Generation in Multimodal Diffusion Transformers via Restricting Unsafe Information Flows

When Think-with-Image Meets Safety: What Determines Multimodal Jailbreak Robustness?

Token by Token, Compromised: Backdoor Vulnerabilities in Unified Autoregressive Models

Hallucination as Exploit: Evidence-Carrying Multimodal Agents

Surviving the Unseen: Predictive Defense for Novel Multi-Turn Multimodal Attacks

To See is Not to Learn: Protecting Multimodal Data from Unauthorized Fine-Tuning of Large Vision-Language Model

BEACON: A Multimodal Dataset for Learning Behavioral Fingerprints from Gameplay Data

Sketch-based Access Control: A Multimodal Interface for Translating User Preferences into Intent-Aligned Policies

InverTune: A Backdoor Defense Method for Multimodal Contrastive Learning via Backdoor-Adversarial Correlation Analysis.