#adversarial-prompt 主题 - Cyber Security Daily Radar

👥 作者: Meng Xie, Li Zeng, Hangtao Zhang, Xianlong Wang, Ziqi Zhou, Pengpeng Qiao, Zhetao Li

本文发现商用图像生成模型（如GPT-Image-2、Nano Banana Pro等）在生成包含可读文本的图像（如海报、信息图）时，存在一种此前未被报告的安全漏洞：这些模型会拒绝直接输出有害文本，但当相同内容以图像中嵌入文本的形式呈现时，安全对齐机制失效，即文本安全对齐无法可靠地迁移到图像中的文本。与现有图像越狱攻击主要诱导模型生成有害视觉对象不同，本文首次提出“指令密集型视觉越狱”概念，使模型在图像中生成详细、可读且可操作的有害指令，从而放大危害。为实例化这一威胁，作者提出TYPO框架，一种黑盒方法，通过自动生成对抗性排版提示，隐蔽地引导模型以高可读性排版文本表达有害意图。TYPO将提示生成分解为文本通道（重构目标意图）和视觉通道（指定呈现形式），并构建双通道文本-视觉策略空间，通过自适应组合搜索优化策略组合。在四个商用模型上的实验表明，TYPO在平均攻击成功率（ASR）上超过9种代表性越狱攻击50.2%，且每次查询成本仅约0.04美元。该研究揭示了图像生成模型文本渲染能力引入的新攻击面，对模型安全对齐提出了挑战。

💡 推荐理由: 该研究揭示了图像生成模型文本渲染能力带来的新安全漏洞，攻击者可通过排版提示生成可读的有害指令，绕过模型的安全对齐。安全团队需关注此类攻击面并评估自身模型的鲁棒性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)

👥 作者: Xiang Fang, Wanlong Fang

该论文针对大型语言模型（LLM）面临的对抗性提示攻击（如越狱、提示注入）提出了一种新颖的防御框架——对抗性提示解纠缠（APD）。研究背景指出，攻击者利用语义歧义绕过安全机制，导致有害输出，对安全关键型应用构成威胁。APD框架包含三个核心创新：（1）基于互信息的语义分解方法，将输入提示分离为对抗性成分和良性成分，确保统计独立性；（2）基于图的意图分类方法，利用频谱分析检测提示语义中的恶意模式；（3）轻量级基于Transformer的分类器，在真实世界的毒性和越狱提示数据集上训练，实现高效准确的对抗性意图检测。在多个对抗性提示数据集上的评估表明，APD可将有害输出生成减少85%以上，同时保持对模型性能的极小影响。该框架的计算效率支持实时部署，为保护LLM提供了可扩展、符合伦理的防御方案。本文适合关注LLM安全性、对抗性机器学习以及实用防御机制的研究者和工程师阅读。

💡 推荐理由: 随着LLM在安全关键领域的广泛应用，对抗性提示攻击成为重大威胁。APD框架提供了一种新颖的防御思路，通过语义分解和图分析主动识别恶意内容，显著降低有害输出，具有实际部署潜力。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#adversarial-prompt

TYPO: Instruction-Dense Visual Jailbreaks against Commercial Closed-Source Image-Generation Models

Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security