#black-box attack

共收录 2 条相关安全情报。

👥 作者: Hanbin Hong, Xinyu Zhang 0016, Binghui Wang, Zhongjie Ba, Yuan Hong 0001

本文首次提出了一种具有可证明保证的黑盒攻击新范式——可认证黑盒攻击，该攻击能够在查询目标模型之前就保证对抗样本的攻击成功概率（ASP）。与传统的基于查询或迁移性的经验性黑盒攻击不同，这种新攻击揭示了机器学习模型在理论层面上的显著脆弱性。作者建立了一套新颖的理论基础，通过随机化对抗样本来确保ASP的理论保证，无需在目标模型上进行验证或查询。在此基础上，提出了多种创新技术来生成随机化对抗样本，同时减小扰动幅度以提高不可感知性。实验在CIFAR-10/100、ImageNet和LibriSpeech数据集上进行，与16种现有最优黑盒攻击进行了全面对比，并针对计算机视觉和语音识别领域多种最新防御方法进行了测试。理论和实验结果均验证了该攻击的有效性和显著性，表明其能够以可证明的置信度突破强防御，构造出拥有高ASP的无限对抗样本空间。该工作对机器学习安全性研究具有重要理论意义，同时也对现有防御体系提出了严峻挑战。

💡 推荐理由: 该攻击首次从理论上保证了黑盒攻击的成功概率，打破了现有防御的有效性，为攻击方提供了可量化的置信度，可能迫使防御方法进行根本性革新。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Zeyuan Chen, Yihan Ma, Xinyue Shen, Michael Backes, Yang Zhang

本研究提出了一种针对大型语言模型（LLM）的成员推断攻击方法——PopQuiz攻击。成员推断攻击旨在判断某个特定数据样本是否被用于模型训练，从而泄露训练数据的隐私。该方法将目标数据转化为多项选择题的格式，通过黑盒访问模型（即仅能获取模型输出，无法访问内部参数或梯度）来测试模型是否能正确回忆特定训练样本。攻击者构造问题，要求模型从多个选项中选出正确答案，并根据模型的回答模式推断成员身份。实验在六个广泛使用的LLM（GPT-3.5、GPT-4o、LLaMA2-7b、LLaMA2-13b、Mistral-7b和Vicuna-7b）以及四个数据集上进行，平均ROC-AUC达到0.873，比现有方法高出20.6%。研究还分析了影响攻击成功率的因素，包括查询复杂度、数据类型、数据结构以及训练设置（如模型大小、训练轮数等）。此外，论文评估了三种防御机制：基于指令的防御、基于过滤器的防御和基于差分隐私的防御。这些防御虽能一定程度降低攻击性能，但并未完全消除风险。研究表明，现代LLM中仍存在显著的隐私漏洞。本工作对于理解LLM的隐私风险、设计更安全的模型部署方案具有重要参考价值。

💡 推荐理由: 该攻击无需模型内部信息，仅通过黑盒查询即可推断训练数据中是否包含特定样本，直接威胁LLM的隐私保护能力，对数据合规和安全审计有重要警示意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#black-box attack

Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence.

Pop Quiz Attack: Black-box Membership Inference Attacks Against Large Language Models