#content-moderation 主题 - Cyber Security Daily Radar

👥 作者: Qin Yang, Lu Malloy, Joshua Lee, Xiaohan Chang, Meisam Mohammady, Doowon Kim, Yuan Hong

这篇论文研究了基于大型语言模型（LLM）的内容审核系统在视觉感知上的盲点。作者指出，当前的内容审核系统主要依赖令牌化文本，忽略了人类在理解内容时所依赖的视觉线索，例如字体、间距、排列等排版特征。这种感知不匹配导致：人类能轻易识别的有害内容，对自动审核系统来说可能完全不可见。为了系统性地研究这一漏洞，作者提出了一类新的攻击手段——人类感知对抗攻击（Human-Perceptible Adversarial Attacks, HPAA）。其核心思想是通过视觉上显著的排版操纵，将有害表达嵌入到看似无害的文本中，使得人类仍能识别其有害性，而机器检测率大幅下降。攻击完全在黑盒设置下进行，仅需少量查询（实验中仅需3次），无需模型访问或梯度信息。作者在多个数据集和十种实际部署的审核系统（包括商业API和最先进的开源防护栏）上评估了攻击效果。结果显示，攻击生成的内容在人类识别率超过86%的同时，在所有被评估系统上的检测率均低于1%。进一步的消融实验分析了促成成功规避的排版因素，并讨论了当前审核架构为何无法捕捉这些信号。最后，作者提出了一些实用性防御措施。该研究揭示了当前基于LLM的审核生态系统中的一个根本盲点，强调需要开发能够更符合人类感知理解的内容审核系统。

💡 推荐理由: 该研究揭示了LLM内容审核系统在视觉感知层面的结构性缺陷，攻击仅需少量查询即可实现极低检测率，对依赖LLM过滤有害内容的平台构成潜在威胁。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Qingying Hao, Licheng Luo, Steve T. K. Jan, Gang Wang 0011

本论文研究了感知哈希（Perceptual Hashing）算法的安全性，重点关注其在实际应用（如版权检测、内容审核）中的脆弱性。作者提出了一种针对感知哈希的对抗性攻击方法，能够操纵图像使得其感知哈希值在攻击者控制下发生变化，而视觉效果保持相似或不同。具体来说，攻击者可以生成两张视觉上相同但哈希值截然不同的图像，或者视觉上不同但哈希值相同的图像。这种攻击利用了感知哈希算法对图像微小扰动的敏感性，通过优化噪声添加来实现。实验在pHash、DCT-based哈希等常见感知哈希算法上进行，证明了攻击的有效性。结果表明，基于感知哈希的应用可能被欺骗，从而绕过版权检测、虚假删除合法内容或隐藏恶意内容。论文还讨论了潜在防御策略，如更鲁棒的哈希设计或结合图像质量指标。该工作揭示了感知哈希在安全关键场景中的不足，对内容平台和数字取证领域具有重要警示意义。

💡 推荐理由: 感知哈希广泛应用于版权检测和内容审核，该攻击揭示其易被操纵，可能导致误判或滥用，影响平台安全与内容合规。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Saidu Sokoto, Leonhard Balduf, Dennis Trautwein, Yiluo Wei, Gareth Tyson, Ignacio Castro, Onur Ascigil, George Pavlou, Maciej Korczynski, Björn Scheuermann 0001, Michal Król

本论文研究去中心化文件系统 IPFS（星际文件系统）中的内容审核挑战。IPFS 作为“去中心化网络”的重要组成部分，其分布式架构使得内容管理极为困难。作者通过分析 368,762 个文件，系统性地识别、分类并测量了 IPFS 中存在的问题内容（例如已被下达删除通知的文件）。研究覆盖了完整的内容审核流程：文件如何被标记、谁托管和检索这些文件，以及审核流程的有效性。作者分析了提交到拒绝列表的内容，发现大量问题内容仍被提供服务，且缺乏中心化机制反而促进了问题内容的传播。尽管作者观察到对删除请求的快速响应，但测试了多个网关的弹性后表明，现有过滤手段可以被规避。最终，论文提出了改进内容审核的方案：在检测钓鱼内容方面提高了 227% 的识别率，并将平均过滤时间缩短了 43%。这项工作对去中心化平台治理、内容安全以及分布式系统安全具有重要参考价值。

💡 推荐理由: 随着去中心化存储和网络的发展，缺乏中心化审核机制使得非法或有害内容更难管控。该研究首次大规模量化了 IPFS 上问题内容的传播与审核困境，为安全社区设计去中心化内容治理方案提供了实证依据。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Priya Kaushik, Sonja Brown, Rakibul Hasan, Sazzadur Rahaman

该研究对 Roblox 平台的聊天安全审核系统进行了首次独立评估。Roblox 拥有数亿每日活跃用户，其中大量为未成年人，这使其成为恶意用户通过实时聊天接触潜在受害者的高风险环境。研究者从四个不同年龄分组的公开游戏服务器中，遵循伦理、法律规范及 Roblox 服务条款，收集了约 200 万条聊天消息作为语料库。由于数据规模庞大，无法完全依赖人工分析，他们采用了两阶段方法：首先人工标记了 99,800 条消息作为安全/不安全的基准真值，并用此评估了四款本地部署的先进大语言模型（LLMs）的分类性能；随后将表现最佳的 LLM 应用于全部语料，识别出潜在不安全消息，再通过迭代开放式和轴式编码进行人工归类，直至达到主题饱和。研究结果显示，当前审核系统存在严重漏洞：大量涉及诱骗、性化未成年人、欺凌骚扰、暴力、自残、共享敏感信息等不安全聊天消息成功逃脱审核。进一步分析表明，那些消息曾被标记过的用户，会采用多种技术（如变体拼写、同音词、隐晦表述等）持续发送有害消息以规避审核。该研究系统性地揭示了现有自动化审核机制的不足，强调了针对青少年社交平台的内容审核亟需改进。

💡 推荐理由: Roblox 是青少年最常使用的平台之一，其聊天审核失效可能直接导致未成年人面临诱骗、骚扰等严重风险。本研究首次独立验证了审核系统的实际效果，为安全团队理解绕过手法和优化检测策略提供了实证基础。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Anna Ablove, Shreyas Chandrashekaran, Xiao Qiang, Roya Ensafi

本文系统地研究了中文大型语言模型（LLM）服务中内容审查政策的实现方式。研究团队设计并实现了一个自动化测试框架，通过向多个主流中文LLM服务（如百度文心一言、阿里巴巴通义千问等）发送精心构造的提示词，评估它们对敏感话题（如政治、历史、社会事件等）的响应一致性。实验发现，不同服务在审查的严格程度、触发审查的关键词模式、以及拒绝回答的措辞上存在显著差异。部分服务会直接拒绝回答，另一些则提供符合官方立场的回答，还有服务会给出模糊或转移话题的回复。论文进一步分析了审查政策的文本依据，并讨论了这种不一致性对用户信息获取和言论自由的影响。研究贡献在于首次大规模、多维度地刻画了中国LLM服务的审查实现现状，为理解AI时代的信息控制提供了实证数据。

💡 推荐理由: 揭示了中文LLM服务审查政策的实现差异，对理解AI内容监管、用户信息获取质量及跨国服务合规具有参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Friedemann Lipphardt, Moonis Ali, Martin Banzer, Anja Feldmann, Devashish Gosain

本研究对大型语言模型（LLM）中的内容审核机制进行了全球范围的系统性分析。论文首先指出现有LLM部署时通常内置了内容过滤器以阻止有害或不当内容，但这些过滤器的有效性和一致性在全球不同地区因语言、文化、法律和监管环境的差异而存在显著不确定性。作者收集了多个主流LLM（如GPT-4、Claude、Llama等）的公开API和开源模型，设计了一套涵盖仇恨言论、敏感政治话题、暴力、色情等类别的多语言测试提示集，覆盖英语、中文、阿拉伯语、俄语、西班牙语等10种主要语言。通过自动化测试和人工评估相结合的方式，报告了不同模型在不同语言下对同一内容管制的差异——某些语言（如英语）的内容过滤极为严格，而其他语言（如低资源语种）则几乎无限制。进一步地，论文还揭示了特定区域（如中国大陆）的模型版本在政治敏感话题上存在额外的本地化审核规则，体现了“套娃式”的审核层级。实验表明，许多LLM的内容审核并非基于统一价值观，而是受到部署地区法律和社会规范的深刻影响，甚至出现“Ba Sing Se”（《降世神通》中虚构的乌托邦城市，寓意掩盖真相）式的表面和谐。该研究的核心贡献在于首次在大规模、多语言、多模型背景下量化了LLM内容审核的地理不均匀性，并提出了威胁分类法（taxonomy）来表征不同级别的审核力度。对于安全从业者而言，本文揭示了通过语言或区域转变绕过内容过滤的潜在攻击面，并强调了在全球化部署中维护一致性审核策略的挑战。

💡 推荐理由: 揭示了LLM内容审核存在的区域差异，可能被攻击者利用以绕过安全限制，对跨国部署的AI系统构成潜在威胁。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Filipo Sharevski, Verena Distler, Florian Alt

该论文研究了社交媒体平台上的软审核（soft moderation）对用户感知不真实政治内容准确性和分享意图的影响。研究者以X平台（原Twitter）为背景，通过在线实验（N=约1000名美国参与者）呈现带有不同软审核标签（如“虚假信息”、“有争议”等）的政治推文，测量用户对内容准确性的感知和分享意愿。结果显示，软审核标签显著降低了用户对不真实内容的准确性评价，并减少了分享意图，但这种效果因用户政治倾向和内容类型（左翼vs右翼）而异。此外，软审核对低可信度内容的抑制作用更强，但对高可信度内容影响较小。论文还探讨了用户对软审核机制的信任度及可能产生的“逆火效应”。研究建议平台应采用更透明的标签设计，并考虑用户特征以提升审核效果。该工作为内容审核策略提供了实证依据，对社交工程防御和虚假信息治理有参考价值。

💡 推荐理由: 虚假信息是社交工程的关键载体，了解软审核如何影响用户决策有助于安全团队设计更有效的安全提示和培训，提升组织对信息操纵的抵抗力。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.4)

Cyber Security Daily Radar

#content-moderation

What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks

It's Not What It Looks Like: Manipulating Perceptual Hashing based Applications.

Guardians of the Galaxy: Content Moderation in the InterPlanetary File System.

An Evaluation of Chat Safety Moderations in Roblox

Characterizing the Implementation of Censorship Policies in Chinese LLM Services.

There is No War in Ba Sing Se: A Global Analysis of Content Moderation in Large Language Models.

"Helps me Take the Post With a Grain of Salt: " Soft Moderation Effects on Accuracy Perceptions and Sharing Intentions of Inauthentic Political Content on X.