#style manipulation

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Xianglin Yang, Bryan Hooi, Gelei Deng, Tianwei Zhang, Jin Song Dong

本文针对LLM作为评判者(LLM-as-a-judge)模式中存在的文体偏见问题,提出了一种名为BITE(BIas exploraTion and Exploitation)的黑盒对抗攻击框架。研究背景是:LLM评判器在评估文本时,会表现出对特定文体特征(如冗长性、句子结构)的偏好,这构成了一个被忽视的安全漏洞。BITE框架通过语义保持的文本编辑来误导LLM评判器,人为地提高评分。该方法将文体编辑的选择建模为上下文bandit问题,并采用LinUCB策略自适应地选择能最大化评判器得分的编辑方式,无需访问模型参数或梯度。实验在多种LLM评判器和任务上进行,包括聊天机器人排行榜的点对点比较和AI评审基准测试。BITE实现了超过65%的攻击成功率,并在9分量表上将评分提升1-2分,同时保持语义等价。此外,论文评估了攻击的隐蔽性,显示BITE能够规避标准的风格控制方法和多种检测基线。该研究揭示了LLM-as-a-judge范式的根本弱点,并推动了鲁棒的、对抗感知的评估方法。

💡 推荐理由: 该研究揭示了LLM评判器因文体偏见而存在的安全漏洞,可能被攻击者利用来操纵AI评估结果,影响排名、评审等关键任务。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)