#multi-modal 主题 - Cyber Security Daily Radar

👥 作者: Aldridge Fonseca, Udayan Atreya, Amith Kamath Belman, Frank Sicong Chen

该论文提出了一种名为 VIGIL（Verifying Identity via Gated Intermittent Likelihoods for Continuous Biometric Authentication）的连续多模态身份认证框架，旨在解决现有连续认证方案在信号质量差时无法有效区分持久攻击者与合法用户的问题。VIGIL 的核心贡献包括：1）可配置的跨模态融合机制，允许对每种生物特征模态进行独立加权，使操作员能够根据场景选择不同的融合策略；2）改进的时间融合方法，采用双状态状态转移机（STM）与单向转移矩阵，以更准确地建模用户行为的时间动态；3）三区域验证决策模型，当证据不确定时支持多轮验证，并结合自适应收缩验证窗口，在保证合法用户体验的同时缩短入侵检测时间。实验通过单调衰减、回流消除以及分析评估验证了该框架相对于现有方法的优势。该研究适用于需要高安全性且不影响用户体验的持续身份认证场景，如企业网络访问控制、移动设备解锁等。

💡 推荐理由: 连续身份认证是应对持续威胁的关键，现有方法在信号弱时易误判，VIGIL 通过可配置融合与自适应窗口机制兼顾安全与可用性，对蓝队设计多因素认证策略有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zhangheng LI, Jianing Zhu, Junyuan Hong, Sungmin Eum, Shuowen Hu, Suya You, Zhangyang Wang

该研究针对多模态大语言模型（MLLM）中的机器遗忘（Machine Unlearning）机制的安全性提出质疑。MLLM在训练时可能无意中编码了隐私敏感数据，因此多模态机器遗忘（MMU）被用于强制模型遗忘这些信息。但作者发现，当模型公开后，恶意用户可通过一种名为“提示优化参数抖动”（POPS）的对抗策略，近乎完整地恢复出本应被遗忘的知识。POPS方法包含两个阶段：首先通过后缀优化（prompt-suffix optimization）诱导受害者模型生成潜在的隐私样本；然后利用这些合成输出对模型进行微调，从而揭露真实的隐私信息。实验在多个MMU基准测试上进行，结果表明现有MMU算法存在严重缺陷，POPS能够实现近乎完全的知识恢复，揭示了基于MMU的隐私保护存在根本性漏洞。该论文对MLLM隐私保护领域提出了严峻挑战，提示安全从业者需要重新审视和加强遗忘机制的鲁棒性。

💡 推荐理由: 该研究暴露了多模态大模型机器遗忘机制的根本性脆弱性，证明即使模型执行了遗忘操作，攻击者仍可通过对抗方法恢复隐私信息，威胁到数据隐私保护的有效性。

🎯 建议动作: 研究跟进，评估自身模型的机器遗忘机制是否易被类似POPS方法攻破，并部署对抗测试流程。

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Wenzhuo Xu, Zhipeng Wei, Zonghao Ying, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Quanchen Zou

多模态大语言模型（MLLMs）在接收多图像输入时存在安全隐患。现有越狱方法仅使用单张图像，限制了攻击空间：无法将有害请求分布到多张图像、携带丰富信息或利用额外视觉推理任务分散模型注意力。本文提出一种组合式越狱框架DMN，通过分布式指令（Distributed instruction）、多模态证据（Multimodal evidence）和数字链任务（Number chain task）全面增强越狱效果。分布式指令将有害内容拆解到多张图像中，绕过单图安全审查；多模态证据利用图像与文本的关联构建推理链条；数字链任务强制模型进行数值排序，分散其对危险内容的警觉。实验表明，DMN在GPT-4o、Gemini-2.5-pro和Claude Sonnet 4上攻击成功率超过90%，显著优于现有基准。该框架揭示出当前多模态安全对齐机制在组合式、多图像输入场景下的根本性弱点。研究为多模态AI安全评估提供了新视角，提示开发者在多图像条件下需强化安全对齐策略。

💡 推荐理由: 该研究揭示多模态大模型在多图像输入场景下的安全漏洞，攻击成功率极高，直接影响GPT-4o等主流商业模型的安全性评估，推动安全对齐方案改进。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Gilda Rech Bansimba, Regis Freguin Babindamana

在线欺诈在非洲已演变为大规模问题，但现有网络安全工具几乎不对普通公民开放，且主要针对具备稳定宽带连接的技术用户和SOC团队设计。这种不匹配并非偶然，而是研究文化长期优化基准性能、系统性地忽视可部署性、可访问性和本地威胁上下文的结果。本文提出GuardSec——一个已投入生产、公开可访问的实时多模态数字威胁验证Web平台，从头开始为非洲用户环境设计。系统允许任何拥有浏览器的用户在无需注册、无需API密钥、无需网络安全专业知识的情况下，在五秒内评估URL、网站、电话号码、电子邮件地址和商业实体的合法性。一个独特的原创组件是“Mon Empreinte”（我的足迹）模块，它实时审计用户自身的连接和数字暴露：分析访问者的IP地址、地理位置、ISP身份、连接类型、设备指纹、浏览器配置，以及涵盖网络完整性、跟踪暴露和匿名化状态的十二个安全指标。这种自我诊断能力将GuardSec从被动验证工具转化为主动的数字自我认知工具，使用户不仅能够了解外部实体是否安全，还能了解自己的连接是否被入侵、跟踪或暴露。此外，平台还嵌入了一个上下文感知的对话式安全助手Gilda，用通俗语言回答用户关于数字威胁的问题，并按需生成个性化安全建议。该论文强调研究问题：针对非洲用户的可访问性和多模态验证；核心方法：生产级Web平台，集成URL、实体验证和自诊断模块；主要贡献：提供了真正为低资源、高欺诈环境设计的、无需技术门槛的解决方案；适合安全工程师、SOC分析师、发展中国家的数字安全从业人员以及关注可访问性设计的研究者阅读。

💡 推荐理由: GuardSec面向非洲用户，解决了现有安全工具因高门槛而无法普及的问题，其自诊断模块能提升普通用户的数字安全意识，对全球欠发达地区的反欺诈和数字防护具有示范意义。

🎯 建议动作: 建议评估GuardSec功能并考虑在本地部署类似系统，或将其作为用户安全意识培训的补充工具

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chidera Biringa, Ajmal Abbas, Vishnu Selvaraj, Gokhan Kul

本文提出 VulStyle，一种多模态软件漏洞检测模型，它联合编码函数级源代码、非终结符抽象语法树（AST）结构和代码风格计量（CStyle）特征。现有代码表示方法主要依赖词级模型或完整AST树，往往忽略指示风险编程习惯的风格线索，或者引入高结构开销。VulStyle 仅选择非终结符 AST 节点，在保留语义层次的同时降低输入复杂度，并集成句法和词法 CStyle 特征作为辅助漏洞信号。该模型采用掩码语言建模在 490 万个函数（覆盖七种编程语言）上进行预训练，并在五个基准数据集（Devign、BigVul、DiverseVul、REVEAL、VulDeePecker）上微调。VulStyle 在 BigVul 和 VulDeePecker 上达到当前最优性能，F1 分数相比强基线 Transformer 模型提升 4%-48%，在所有基准上均取得具有竞争力或最优的平均性能。本文还通过消融实验分离 CStyle 和 AST 结构的影响、进行错误案例分析，并在攻击者真实场景下定位检测任务的威胁模型。该研究为漏洞检测提供了融合编程风格特征的新思路，适合安全研究者和代码分析工具开发者阅读。

💡 推荐理由: VulStyle 创新性地融合代码风格计量特征提升漏洞检测性能，在多个基准上显著超越现有方法，为安全工具开发者提供了可直接借鉴的多模态预训练框架。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#multi-modal

VIGIL: Verifying Identity via Gated Intermittent Likelihoods for Continuous Biometric Authentication

POPS: Recovering Unlearned Multi-Modality Knowledge in MLLMs with Prompt-Optimized Parameter Shaking

DMN: A Compositional Framework for Jailbreaking Multimodal LLMs with Multi-Image Inputs

GuardSec: A Multi-Modal Web Platform for Real-Time Digital Fraud Detection, Entity Verification, and Connection Security Analysis in the African Context

VulStyle: A Multi-Modal Pre-Training for Code Stylometry-Augmented Vulnerability Detection