#ranking manipulation

共收录 1 条相关安全情报。

← 返回所有主题
👥 作者: Ojas Nimase, Zhe Chen, Gengpei Qi, Yue Zhao, Xiyang Hu

大语言模型(LLM)越来越多地用于对用户查询的产品、文档和推荐进行排名,这使得操纵这些排名成为影响公平性和信息完整性的一个日益严重的问题。生成式引擎优化(GEO)领域的研究已经提出了许多操纵方法,但每种方法都在自己的数据集上使用自己的指标进行评估,导致它们的相对强度和可检测性尚不明确。为了填补这一空白,该论文提出了GEO-Bench,一个统一的基准测试,用于在统一协议下评估GEO排名操纵攻击。GEO-Bench整合了黑盒提示型攻击(如TAP、Zero-Shot)、白盒梯度型攻击(如STS、RAF、StealthRank)以及十种白帽C-SEO策略。它使用固定的开放权重排名模型(Llama-3.1-8B-Instruct)在五个数据集上评估每种方法,并采用衡量有效性(NRG、Success@α、Promote@α)和隐蔽性(关键词违反率、困惑度比)的指标。评估结果表明,有效性和隐蔽性在对抗性攻击之间存在权衡;黑盒内容重写在排名提升方面与梯度型攻击相当或更优,同时能生成更流畅的文本,并且在某些领域可以逃避基于关键词和困惑度的检测;此外,访问模型并不能预测攻击强度。通过标准化数据集、攻击实现和指标,GEO-Bench实现了对这些攻击范式的首次直接比较,并支持检测方法的开发。该工作对研究LLM安全、搜索引擎优化和信息安全的从业者具有重要参考价值。

💡 推荐理由: GEO攻击可能被用于推广恶意内容、操纵搜索结果,威胁信息完整性。该基准首次统一比较了多种攻击方法的有效性与隐蔽性,有助于蓝队理解攻击能力并开发检测手段。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)