#safety-benchmark 主题 - Cyber Security Daily Radar

👥 作者: Yiluo Wei, Peixian Zhang, Gareth Tyson

本文对AI角色平台（允许用户与AI人格进行对话的快速发展的应用领域）进行了首次大规模安全研究。研究评估了16个主流平台，使用涵盖16个安全类别的5000个问题的基准集。结果显示，AI角色平台的平均不安全响应率高达65.1%，远高于基线的17.7%。研究进一步发现，安全性能在不同角色间差异显著，且与角色的人口统计特征和个性等特征强相关。基于这些洞察，作者训练了一个机器学习模型，能够以0.81的F1分数识别出安全性较低的角色。该预测能力可用于平台改进安全交互、角色搜索/推荐以及角色创建机制。总体而言，研究结果对提升AI角色平台的治理和内容审核提供了宝贵见解。

💡 推荐理由: AI角色平台在用户中日益流行，但其安全风险缺乏系统评估。本文揭示了此类平台极高的不安全响应率，并提出了可操作的预测模型，对安全从业者理解并缓解相关风险具有重要参考价值。