#black-box 主题 - Cyber Security Daily Radar

👥 作者: Keyu Zhang, Vadim Safronov, Andrew Martin

该论文研究了大语言模型（LLM）的来源追踪（provenance testing）问题，即判断一个待检模型是否与某个源模型属于同一训练或开发谱系。现有黑盒方法大多依赖于模型输出文本的表面特征，但这些特征在模型经过微调、适配或部署环境变化时容易发生漂移，即使模型的语义理解并未改变，导致来源判定的可靠性下降。为了克服这一局限，作者提出将模型对开放型问题的输出映射到有限且离散的决策空间，从而抽象掉表面形式的变化，将来源测试转化为对“诱导决策区域”（induced decision regions）继承性的度量。基于这一思路，论文提出了Stemma，一种实用的黑盒LLM指纹识别方法。Stemma将稳定性、鲁棒性和特异性作为互补的探针选择原则，以可靠地估计决策区域的继承程度。实验环节中，作者使用56个公开检查点构建了770对源-嫌疑模型对，覆盖多种模型权重变换，Stemma取得了0.967的AUC，以及1%假阳性率下87.8%的真阳性率，显著优于四种代表性基线。此外，在覆盖91个部署实例的1260对模型上，Stemma达到了0.995的AUC和1%假阳性率下93.5%的真阳性率，证明了其对多样化推理时部署设置的鲁棒性。该研究的主要贡献包括：提出决策区域继承作为LLM来源信号、设计三种互补的探针选择原则、构建大规模评测基准，并验证了方法在不同变换和部署条件下的有效性。适合AI安全研究者、模型治理与审计人员阅读。

💡 推荐理由: LLM来源追踪是模型知识产权保护和供应链安全的关键能力。Stemma通过决策区域继承提供了一种抗表面漂移的黑盒方法，显著提升溯源准确性，对检测模型盗用、违规微调或未经授权的衍生模型具有实际价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Fatemeh Moradihaghighi, Zihao Zhan, Yanan Guo, Ziming Zhao, Mashrur Chowdhury, Zhenkai Zhang

该论文提出了一种名为Fuzz'EMup的方法，利用电磁（EM）侧信道辐射来指导纯黑盒环境下的嵌入式固件模糊测试。随着物联网和嵌入式设备在众多领域的普及，固件安全变得至关重要。模糊测试是一种系统化发现漏洞的有效手段，而覆盖率反馈能通过引导探索提升其效果。然而，许多设备由于固件提取、插桩或精确模拟的困难，导致覆盖率信息无法获取，测试者只能进行低效的黑盒模糊测试。论文的核心挑战在于如何将原始EM测量值转化为可靠的引导信号：EM迹线噪声大，时序抖动会导致不同迹线中的对应特征在时间上偏移。作者通过结合基于活动与空闲信号对比的频带选择（activity-to-idle signal contrast）和动态时间规整（dynamic time warping）来对齐每个输入的迹线并检测持续偏差，同时通过将执行组织成基于发散时间的树形结构来保持可扩展性。在四个真实固件目标上的评估表明，EM衍生的反馈增强了路径探索，相比无引导的模糊测试实现了更高的代码覆盖率。该方法为无法获取内部状态信息的黑盒固件测试提供了新的解决方案。

💡 推荐理由: 对于安全从业者，该方法在无法获取固件源码或进行插桩的嵌入式设备上，开创了利用侧信道信号提升模糊测试效率的实用路径，有望发现传统黑盒测试难以触及的漏洞。

🎯 建议动作: 研究跟进，评估该技术对自身负责的嵌入式设备安全测试流程的潜在改进。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.7)

👥 作者: Yanis Xabier Wilbrand Peña, Oliver Weißl, Andrea Stocco

该论文提出了一种名为GATAS的自动语音识别（ASR）系统黑盒测试方法。研究背景是，尽管基于transformer的ASR模型在关键应用中取得了高准确率，但仍容易受到对抗性攻击，尤其是在黑盒场景下，攻击需要保持感知自然性。现有方法通常直接扰动波形，容易产生不自然的噪声。GATAS创新地利用文本到语音（TTS）模型的音素级潜在空间来生成触发错误的输入，通过在自然语音流形内插值潜在表示来诱导转录错误。该方法将攻击形式化为一个多目标优化问题，平衡语义差异和感知质量。实验评估基于多个白盒和黑盒基线，结果显示GATAS在保持较低失真和更高感知质量的同时，实现了98%的攻击成功率，人类研究也证实了其自然性。即使没有梯度信息，GATAS仍能与白盒方法竞争，表明表示对齐和感知质量比访问模型内部更关键。该工作为ASR系统的鲁棒性测试提供了高效、真实的黑盒测试用例生成方法。

💡 推荐理由: 该研究揭示了ASR系统的潜在脆弱性，提出了一种既有效又自然的新型黑盒测试方法，对语音助手、听写软件等关键应用的安全测试具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: William Hackett, Peter Garraghan

本文提出了一种针对大型语言模型（LLM）及智能体系统中防护栏（guardrail）的黑盒侦察方法。在现实应用中，LLM常配备防护栏系统以检测并阻止恶意指令。然而，在进行黑盒对抗模拟时，研究人员难以区分防护栏拦截与LLM自身拒绝响应（LLM rejection），这两种情况需要不同的绕过策略，从而影响攻击技术的选择与优化。作者首次提出了一套黑盒防护栏侦察方法论，仅通过HTTP、词汇及时间信号的监控行为来推断目标AI系统中是否存在防护栏，无需任何先验知识。实验表明，该方法能以100%的准确率检测防护栏存在，且在良性交互与恶意交互之间实现统计显著的行为分离（q < 0.001）。此外，该方法还能识别防护栏设计阻止的内容类别，并在未见提示上以平均F1分数98%区分防护栏拦截与LLM拒绝。该研究为AI安全评估提供了重要工具，帮助安全从业者在黑盒场景下更准确地理解系统安全机制。

💡 推荐理由: 区分防护栏拦截与LLM拒绝是AI安全评估的关键挑战，直接影响攻击测试的有效性和防御策略设计。本文提供的黑盒方法能显著提升安全分析的精度。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Dongdong Zhao, Jinrong Hu, Changtian Song, Jian Chen, Hongmin Wang, Baogang Song

本文针对黑盒成员推理攻击（MIAs）中存在的查询效率问题，提出了一种预查询样本选择框架PSS-MIA。传统的黑盒MIAs对所有候选样本不加区分地进行查询，导致大量查询成本浪费在信息量低的样本上，且增加了查询暴露风险。作者首先定义了问题：哪些候选样本值得查询？PSS-MIA分为两个阶段：第一阶段使用提出的Loss-Gap Ranking（LGR）方法，通过参考模型计算候选样本的损失差（loss gap），估计其成员信号强度，据此对样本排序并筛选出子集；第二阶段仅对选中的样本进行目标模型查询，并将返回结果用于任意现有的黑盒MIA方法。在CIFAR-10、CIFAR-100和CINIC-10数据集上，结合五种代表性黑盒MIA方法（如LiRA、RMIA等）的实验表明，PSS-MIA在保持或提升推理精度的同时，显著降低了查询预算：在0.1%假阳性率（FPR）约束下，分别节省至少83.1%、60.6%和80.4%的查询次数。研究贡献在于提出了一个通用、即插即用的样本选择框架，揭示了样本非均匀成员信号特性，并提供了理论上的排序依据。适合关注机器学习隐私攻击与防御的研究人员、模型发布者以及AI审计团队阅读。

💡 推荐理由: 该研究揭示了成员推理攻击中查询资源的非高效利用问题，提出的预选择框架可被防御方反向利用来设计更高效的对抗措施或降低自身模型被攻击时的暴露风险。

🎯 建议动作: 研究跟进，评估该框架对自身模型成员推理攻击风险的增强效果，并考虑部署查询日志分析以检测异常样本选择模式。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Benjamin Bichsel, Samuel Steffen, Ilija Bogunovic, Martin T. Vechev

本文提出DP-Sniper，一种实用的黑盒方法，用于自动发现差分隐私（DP）实现中的违规行为。该方法基于两个核心思想：（1）训练一个分类器来预测观察到的输出是否可能来自两个可能的输入之一；（2）将该分类器转化为一个近似最优的差分隐私攻击。实验评估表明，DP-Sniper在保证强度上比现有最先进方法高出12.4倍，同时速度提升15.5倍。此外，DP-Sniper能够有效利用朴素实现算法中的浮点漏洞：它检测到一个声称满足0.1-差分隐私的拉普拉斯机制实现实际上连0.25-差分隐私都不满足。该方法无需访问内部实现细节，仅通过黑盒查询即可发现隐私违规，对验证差分隐私系统的实际安全性具有重要意义。

💡 推荐理由: 差分隐私是保护敏感数据的核心机制，但实际实现常因浮点错误等打破理论保证。DP-Sniper提供了一种自动、高效的攻击方法，可帮助安全从业者发现这类违规，确保隐私保护的真实有效性。

🎯 建议动作: 研究跟进该方法，并评估其对内部差分隐私系统的潜在风险，考虑使用类似技术进行防御性测试。

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Dakshina Tharindu, Sahan Sanjaya, Philip Baptist, Prabhat Mishra

本文提出 PowerFuzz，一种基于功耗侧信道测量的统计黑盒固件模糊测试框架。其核心动机是：许多嵌入式系统的固件或二进制文件不公开，导致无法使用依赖执行反馈（如分支覆盖率）的灰盒模糊器。PowerFuzz 无需目标固件的任何内部可见性，仅通过测量固件运行时的功耗迹线来推断执行路径。为了解决黑盒模糊中确定执行分支的挑战，作者采用滑动窗口结合增长窗口的全迹线相关方法，利用功耗迹线识别分支行为，并构建固件的高层控制流图。该控制流图用于引导模糊器生成测试用例，探索未覆盖的执行路径。实验在三个嵌入式硬件平台（如 ARM Cortex-M 系列）和十个固件基准测试上进行，结果表明 PowerFuzz 的分支覆盖率与灰盒模糊器相当（差距在 13.5% 以内），且显著优于现有的黑盒模糊器（最高提升 22%）。该方法为闭源固件安全测试提供了一种实用且有效的途径。

💡 推荐理由: 本方法解决了闭源固件无法使用灰盒模糊的痛点，利用功耗侧信道实现黑盒环境下的分支覆盖引导，显著提升了黑盒模糊测试效率，对 IoT 和嵌入式设备安全评估具有重要价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Guanhong Tao 0001, Shengwei An, Siyuan Cheng 0005, Guangyu Shen, Xiangyu Zhang 0001

该论文提出了一种硬标签黑盒通用对抗补丁攻击方法。在现实世界的黑盒场景中，攻击者无法获取模型参数、梯度或置信度分数，只能获得最终的硬标签（如分类结果）。现有的对抗补丁攻击通常需要白盒或灰盒访问，或针对特定实例生成。本文首次研究了在硬标签黑盒设定下生成通用对抗补丁的问题，即补丁可以附加在任何图像上使模型误分类到目标类别。核心方法包括：利用进化策略优化补丁的形状和纹理，通过查询模型获取硬标签反馈来指导搜索；设计了一种基于离散余弦变换（DCT）的低频扰动初始化策略，提高查询效率；并提出基于随机扰动和区域掩码的增强方法，提升补丁的鲁棒性。在多个基准数据集（如ImageNet、CIFAR-10）和模型架构（ResNet、VGG等）上的实验表明，该方法仅需数千次查询即可生成有效补丁，攻击成功率超过80%。该工作揭示了黑盒部署模型面临的新型安全威胁，为后续防御研究提供了基准。

💡 推荐理由: 该工作首次证明在仅有硬标签反馈的黑盒环境下也能构造通用对抗补丁，威胁范围从白盒/灰盒扩展到更现实的场景，促使安全团队重新评估视觉模型的实际安全性。

🎯 建议动作: 研究跟进：建议安全团队阅读全文，评估现有视觉模型对此类攻击的脆弱性，并探索对抗训练或输入预处理等防御手段。

排序因子: 有可用补丁/修复方案 (+3) | 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Haoran Yang, Jiaming Guo, Shuangning Yang, Guoli Zhao, Qingqi Liu, Chi Zhang, Zhenlu Tan, Lixiao Shan, Qihang Zhou, Mengting Zhou, Jianwei Tai, Xiaoqi Jia

本文提出 IoTBec，一种不依赖固件或源代码的物联网设备漏洞检测框架，专门用于发现黑盒设备中重复出现的漏洞。核心思路是构建“漏洞接口签名”（Vulnerability Interface Signature, VIS），该签名基于对黑盒接口的逆向分析和已知漏洞信息，能够快速匹配目标设备中潜在的相似漏洞。随后，IoTBec 将签名检测与大型语言模型驱动的模糊测试深度结合：一旦匹配成功，自动调用 LLM 生成针对性测试用例进行验证。作者在五家主流 IoT 厂商的设备上进行了大量实验，结果表明 IoTBec 比当前最先进的黑盒模糊测试方法（SOTA）发现的漏洞数量高出 7 倍以上，精确率达 100%，召回率 93.37%。总共检测到 183 个漏洞，其中 169 个获得 CVE 编号，53 个为新发现漏洞且平均 CVSS 3.x 评分为 8.61，涵盖缓冲区溢出、命令注入和 CSRF 等问题。特别地，通过 LLM 驱动的模糊测试还发现了 25 个此前未知的漏洞。该框架的创新在于无需固件或源代码，仅依赖黑盒交互即可高效发现已知漏洞的变种及新漏洞，显著提升了真实场景下的检测效率。适合安全研究人员、IoT 设备制造商及蓝队安全分析师阅读。

💡 推荐理由: 黑盒 IoT 设备漏洞检测长期依赖固件逆向，本工作提出不依赖固件/源码的范式，大幅提升检测效率与覆盖率，并能发现高危变种漏洞，对提升 IoT 生态安全有重要意义。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Peng Cheng 0007, Yuwei Wang 0009, Peng Huang, Zhongjie Ba, Xiaodong Lin 0001, Feng Lin 0004, Li Lu 0008, Kui Ren 0001

该论文聚焦于语音可控智能设备面临的对抗样本（AE）威胁。已有黑盒对抗攻击仅需目标ASR系统最终转录结果，但通常需要大量查询，成本高昂，且对抗样本易受ASR模型更新影响。作者指出根本原因在于无法直接在深度学习模型决策边界附近构造对抗样本。基于此，提出ALIF，首个基于语言学特征的黑盒对抗攻击管道。ALIF利用文本-语音（TTS）和ASR模型的互逆过程，在决策边界所在的语言学嵌入空间中生成扰动。基于ALIF管道，进一步提出ALIF-OTL和ALIF-OTA两种方案，分别针对数字域和物理播放环境，在四个商业ASR和语音助手上进行攻击。大量评估表明，ALIF-OTL和ALIF-OTA的查询效率分别比现有方法提升97.7%和73.3%，且攻击性能相当。尤为突出的是，ALIF-OTL仅需一次查询即可生成攻击样本。时间鲁棒性实验验证了该方法对ASR模型更新的抵抗能力。该研究揭示了低成本、高效的黑盒音频对抗攻击途径，对语音平台安全性构成新挑战。

💡 推荐理由: 本文展示了极低成本的黑盒音频对抗攻击，仅需一次查询即可生成有效样本，且对ASR更新鲁棒，提醒防御者此类攻击可能对语音助手和ASR服务造成严重威胁，需关注语言学层面的防御。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Yifan Liao, Zongmin Zhang, Zhen Sun, Yuhui Sun, Xinhu Zheng, Xinlei He

本文针对自动语音识别（ASR）系统的对抗鲁棒性展开研究。现有对抗攻击直接在波形域添加噪声，存在两个主要局限：一是对黑盒ASR系统的迁移性差，二是易被专门防御波形扰动的机制缓解。为此，作者提出了一种基于代理模型的Clean-Referenced Feature-Vocoder Attack（CR-FVA），将对抗扰动空间从原始波形转移到自监督学习（SSL）表示空间。具体而言，攻击者首先在代理ASR模型（如Whisper-small）的SSL特征层上计算对抗梯度，并扰动更具泛化性的声学-音素表示，从而减少对代理模型特定波形梯度的依赖，提升跨系统迁移性；然后利用声码器（vocoder）将扰动后的SSL特征重构为类语音波形信号，使得最终对抗样本看起来更像自然语音，从而绕过基于波形边界的防御。实验表明，仅以公开的Whisper-small为代理模型，CR-FVA在多个黑盒ASR模型上实现了相对最佳基线平均+26.6%的词错误率（WER）提升；针对多种训练防御（如对抗训练、频谱压缩等），WER提升幅度达+36.2%。该研究揭示了当前ASR鲁棒性评估中的一个盲区：大多数防御仅关注波形域扰动，而基于更高层特征的攻击能轻易绕过。本文工作适合ASR安全研究者、对抗机器学习从业者以及语音系统防御工程师阅读，有助于理解现有防御的不足并设计更全面的鲁棒性评估方案。

💡 推荐理由: 该攻击方法揭示了ASR系统在特征层面的新攻击面，能有效绕过现有基于波形扰动的防御，并展现出强黑盒迁移性，对语音助手、会议转录等关键应用的安全性构成潜在威胁，促使防御者重新审视鲁棒性评估标准。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Ei Hmue Khine, Yao Li, Jiebao Sun, Shengzhu Shi, Zhichang Guo, Boying Wu

该论文聚焦于决策型黑盒对抗攻击（decision-based black-box adversarial attacks）这一严重安全威胁。现有方法存在根本性局限：像素级攻击常引入不自然的高频视觉伪影，而潜在空间框架受限于低维流形的搜索空间以及固有的重建缺陷。为克服这些问题，作者提出了一种名为Latent Geometric Chords（LGC）的高效查询型决策黑盒对抗攻击方法及其变体LGC-H。LGC的核心是在压缩语义流形内执行曲率感知的几何搜索以导航决策边界。为保证高视觉保真度并规避维度瓶颈，作者引入了基于残差的对抗生成（RAG）机制。RAG将语义扰动隔离为几何弦，并直接叠加到原始源图像上，从而显著改善了基线重建缺陷，并将可搜索空间维度有效翻倍。实验结果表明，LGC具有鲁棒的跨数据集迁移能力，并在多个性能指标上显著优于现有基线方法。具体而言，在5000次查询限制下，LGC实现了最小扰动幅度和最高视觉保真度，结构相似性指数（SSIM）超过0.99，学习感知图像块相似度（LPIPS）低于0.01，同时在严格的感知约束下保持高攻击成功率，成功攻破了经过对抗训练（adversarially trained）的鲁棒模型。该工作对理解黑盒模型的脆弱性以及开发更安全的机器学习系统具有重要意义。

💡 推荐理由: 该研究提出了一种高效且视觉保真的决策型黑盒攻击方法，可有效评估和暴露机器学习模型的安全隐患，对开发防御策略和提升模型鲁棒性具有直接参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Chunxiao Wang

本文提出Nautilus Compass，一个面向生产环境LLM coding agent的黑盒人格漂移检测与记忆层系统。研究背景：LLM agent在长时间会话中会出现人格漂移，例如遗忘用户指定的约束、重复已被用户指出的错误、虚构先前的协议。现有白盒方法（如人格向量）需要模型权重，无法应用于大多数用户实际使用的闭源API（Claude、GPT-4）。核心方法：Compass完全在提示文本层操作，使用BGE-m3嵌入计算用户提示与行为锚点文本之间的余弦相似度，并通过加权top-k均值聚合。该方法不调用LLM进行事实提取或构建图，原始对话文本直接嵌入，是唯一公开的不需要索引时调用LLM的记忆层（经与Mem0、Letta等对比）。系统实现为Claude Code插件、MCP A2A服务器、CLI和REST API，并带有Merkle链审计日志以保证锚点更新的防篡改。实验：基于真实Claude Code会话轨迹构建测试集，由独立LLM法官标记，Compass在漂移检测上达到ROC AUC 0.83。其在LongMemEval-S v0.8上得分为56.6%，在EverMemBench-Dynamic上为44.4%（n=500），超过了已发布的四个基线。但LongMemEval-S得分比最新的白盒方法低约30个百分点，作者认为这是无需提取设计的天花板。端到端复现成本为3.50美元（比GPT-4o评估栈便宜约14倍）。代码、锚点、冻结测试数据和审计日志工具均在MIT许可下开源。核心贡献：（1）第一个黑盒、低成本的persona漂移检测方法；（2）提供无需LLM调用的记忆层；（3）实现防篡改审计日志。适合LLM agent开发者和安全研究人员阅读。

💡 推荐理由: 生产环境中的LLM agent常因人格漂移导致行为不可靠，而现有白盒方法依赖模型权重，无法用于闭源API。本方法提供了一种黑盒、低成本、无需调用LLM的检测方案，有助于提升agent的鲁棒性和可信度。

🎯 建议动作: 研究跟进

排序因子: 影响边界/网络设备 (+5) | 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

👥 作者: Han Liu, Shanghao Shi, Yevgeniy Vorobeychik, Chongjie Zhang, Ning Zhang

本文系统研究了对抗扰动是否具有低秩结构。受Low-Rank Adaptation (LoRA)启发——LoRA通过低秩矩阵更新神经网络层显著提升了大型语言模型的训练效率——作者提出对抗样本的生成也是优化过程，因此自然产生疑问：对抗扰动是否也呈现低秩结构？通过理论分析和多种攻击方法、模型架构、数据集上的大量实验，本文证实对抗扰动确实具有内在低秩性质。基于这一发现，作者聚焦于利用低秩性质改进黑盒对抗攻击的效率与有效性，因为黑盒攻击通常面临查询次数过多的问题。方法分为两步：首先使用参考模型和辅助数据指导梯度投影到低维子空间；然后将黑盒攻击中的扰动搜索限制在该低秩子空间内，从而大幅提升攻击效率和效果。实验覆盖多种攻击方法、基准模型、数据集和威胁模型，结果表明所提出的低秩对抗攻击相比传统方法在全方面取得显著且一致的性能提升。该研究揭示了对抗扰动与模型更新之间的结构相似性，为设计更高效的对抗攻击与防御策略提供了新视角。

💡 推荐理由: 揭示对抗扰动的低秩结构，为黑盒攻击效率提升提供新思路，间接启示防御者关注低维扰动空间的检测与防御。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

Cyber Security Daily Radar

#black-box

Stemma: Induced Decision Regions Reveal LLM Provenance

Fuzz'EMup: Leveraging EM Side-Channel Emanation to Guide Black-Box Embedded Firmware Fuzzing

Generative Testing of Automated Speech Recognition Systems

Behind the Refusal: Determining Guardrail Activation via Behavioral Monitoring

Discard the Dross and Select the Essential: Pre-query Sample Selection for Black-box Membership Inference Attacks

DP-Sniper: Black-Box Discovery of Differential Privacy Violations using Classifiers.

PowerFuzz: Power-Based Black-Box Firmware Fuzzing

Hard-label Black-box Universal Adversarial Patch Attack.

IoTBec: An Accurate and Efficient Recurring Vulnerability Detection Framework for Black Box IoT devices.

ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features.

Beyond Waveform Robustness: Robust Feature-Vocoder Adversarial Attacks on Automatic Speech Recognition

Latent Geometric Chords for Query-Efficient Decision-Based Adversarial Attacks

Nautilus Compass: Black-box Persona Drift Detection for Production LLM Agents

Low Rank Adaptation for Adversarial Perturbation