#child-safety

共收录 1 条相关安全情报。

← 返回所有主题
推荐 5.5
Conf: 50%
👥 作者: Priya Kaushik, Sonja Brown, Rakibul Hasan, Sazzadur Rahaman

该研究对 Roblox 平台的聊天安全审核系统进行了首次独立评估。Roblox 拥有数亿每日活跃用户,其中大量为未成年人,这使其成为恶意用户通过实时聊天接触潜在受害者的高风险环境。研究者从四个不同年龄分组的公开游戏服务器中,遵循伦理、法律规范及 Roblox 服务条款,收集了约 200 万条聊天消息作为语料库。由于数据规模庞大,无法完全依赖人工分析,他们采用了两阶段方法:首先人工标记了 99,800 条消息作为安全/不安全的基准真值,并用此评估了四款本地部署的先进大语言模型(LLMs)的分类性能;随后将表现最佳的 LLM 应用于全部语料,识别出潜在不安全消息,再通过迭代开放式和轴式编码进行人工归类,直至达到主题饱和。研究结果显示,当前审核系统存在严重漏洞:大量涉及诱骗、性化未成年人、欺凌骚扰、暴力、自残、共享敏感信息等不安全聊天消息成功逃脱审核。进一步分析表明,那些消息曾被标记过的用户,会采用多种技术(如变体拼写、同音词、隐晦表述等)持续发送有害消息以规避审核。该研究系统性地揭示了现有自动化审核机制的不足,强调了针对青少年社交平台的内容审核亟需改进。

💡 推荐理由: Roblox 是青少年最常使用的平台之一,其聊天审核失效可能直接导致未成年人面临诱骗、骚扰等严重风险。本研究首次独立验证了审核系统的实际效果,为安全团队理解绕过手法和优化检测策略提供了实证基础。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)