#perception-mismatch 主题 - Cyber Security Daily Radar

👥 作者: Qin Yang, Lu Malloy, Joshua Lee, Xiaohan Chang, Meisam Mohammady, Doowon Kim, Yuan Hong

这篇论文研究了基于大型语言模型（LLM）的内容审核系统在视觉感知上的盲点。作者指出，当前的内容审核系统主要依赖令牌化文本，忽略了人类在理解内容时所依赖的视觉线索，例如字体、间距、排列等排版特征。这种感知不匹配导致：人类能轻易识别的有害内容，对自动审核系统来说可能完全不可见。为了系统性地研究这一漏洞，作者提出了一类新的攻击手段——人类感知对抗攻击（Human-Perceptible Adversarial Attacks, HPAA）。其核心思想是通过视觉上显著的排版操纵，将有害表达嵌入到看似无害的文本中，使得人类仍能识别其有害性，而机器检测率大幅下降。攻击完全在黑盒设置下进行，仅需少量查询（实验中仅需3次），无需模型访问或梯度信息。作者在多个数据集和十种实际部署的审核系统（包括商业API和最先进的开源防护栏）上评估了攻击效果。结果显示，攻击生成的内容在人类识别率超过86%的同时，在所有被评估系统上的检测率均低于1%。进一步的消融实验分析了促成成功规避的排版因素，并讨论了当前审核架构为何无法捕捉这些信号。最后，作者提出了一些实用性防御措施。该研究揭示了当前基于LLM的审核生态系统中的一个根本盲点，强调需要开发能够更符合人类感知理解的内容审核系统。

💡 推荐理由: 该研究揭示了LLM内容审核系统在视觉感知层面的结构性缺陷，攻击仅需少量查询即可实现极低检测率，对依赖LLM过滤有害内容的平台构成潜在威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#perception-mismatch

What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks