#audit-safety 主题 - Cyber Security Daily Radar

👥 作者: Florian A. D. Burnat, Brittany I. Davidson

该论文研究了英国《在线安全法》和欧盟《数字服务法》等法规中，将标量指标作为在线平台合规证据的可靠性问题。监管机构依赖这些指标，但平台可能通过策略性操作（例如将推荐路由到语义等价但危害不变的内容变体）来优化指标分数，而不真正减少伤害。作者将审计协议建模为一个公开的转换图，其中连通分量构成语义类，指标本身被视为安全对象。主要贡献包括：(1) 证明任何直接对内容变体评分的指标，只要在有害类中存在两个等价变体得分不同，就可被操纵；(2) 提出“语义包络提升”（semantic-envelope lift），为每个变体分配其所在类的最高得分，并证明这是所有保守类常数修复中的唯一逐点最小值；(3) 推导一个类分层证书（class-stratified certificate），在任意平台策略下成立，其中误差项吸收注释和协议错误。实验在三个层面验证：混合策略有限状态网格的穷举枚举、Z3 SMT编码并在cvc5中交叉验证、以及PRISM-games中的有界单玩家MDP。结果显示，脆弱指标在操纵不变性上失败，无法支持有用的预声明类覆盖证书；而在包络指标下，测试实例中未发现违规。该研究形式化了安全审计中指标操纵问题的根本原因，并提出了理论解决方案。

💡 推荐理由: 安全从业者需警惕仅依赖标量指标的风险，论文展示了平台如何在不减少伤害的情况下操纵指标，并提供了设计抗操纵审计指标的理论基础。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#audit-safety

Gaming the Metric, Not the Harm: Certifying Safety Audits against Strategic Platform Manipulation