#security-evaluation

共收录 6 条相关安全情报。

← 返回所有主题
👥 作者: Peiyang Li, Songping Wang, Yi Huang, Yanhua Shi, Chenhao Zhang, Qi Li, Yueming Lyu, Caifeng Shan, Fengting Li, Chao Feng, Chuanqun Zhu, Liang Chen

随着自主AI智能体从对话式交互转向任务执行,安全威胁也从文本欺骗升级为系统破坏。现有安全评估工作面临三大瓶颈:风险覆盖碎片化(缺乏系统性分类)、执行环境静态或低保真(无法模拟真实多步交互)、评估指标单一粗粒度(仅考虑最终结果忽略过程安全)。为解决这些问题,本文提出AgentCanary——一个针对自主AI智能体的全面安全评估框架。其核心贡献包括三方面:首先,提出正交的“入口×影响”风险分类法,将对抗性影响的注入途径与最终危害解耦,并实例化为覆盖真实部署流程的场景化任务套件;其次,构建高保真真实可执行环境,智能体与真实工具交互,动态生成任务工件,支持多步操作的持久状态,从而自然适配长期攻击评估;最后,实现基于完整轨迹的多维度评估,从结果安全、安全意识和任务效用三个正交维度对智能体行为进行分解评分。作者在多个前沿大语言模型(如GPT-4、Claude等)上,针对三种智能体框架(如AutoGPT、LangChain等)和多种攻击方法(如提示注入、工具劫持、状态污染等)进行了系统实验。结果发现,当前智能体普遍无法识别所面临的攻击,尤其是在技能被篡改、持久状态污染和长时域执行攻击场景下表现脆弱。该工作为构建更可靠和安全的智能体系统提供了系统化的基准评估。

💡 推荐理由: 随着AI智能体被赋予真实工具和执行权限,其安全评估成为蓝队必须关注的领域。AgentCanary提供了首个兼顾风险分类、高保真环境和多维度轨迹评估的框架,帮助安全团队系统性地发现智能体在复杂任务中的脆弱性,特别是在长期执行和状态持久化场景下的隐蔽攻击。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Zvi Topol

这篇论文提出了一种新的方法来评估大型语言模型(LLM)在面对红队攻击时的鲁棒性。传统的评估方法通常只使用攻击成功率(ASR)这一单一指标,将多次攻击简化为一个二元结果,忽略了模型在攻击过程中如何逐步抵抗或屈服的结构化行为。作者创新性地将过程挖掘(process mining)技术应用于红队攻击追踪数据,从事件日志中提取并分析过程模型。实验设计包含60个来自HarmBench的提示词,针对两个LLM(GPT-OSS 120B和Llama 3.3 70B),使用10种提示词变异策略,每个提示最多尝试110次,共生成8,575个带分数的事件。通过提取直接跟随图(DFGs)和状态转移矩阵,论文揭示了传统ASR无法捕捉的结构性防御差异:GPT-OSS表现出近似吸收的拒绝状态(一旦拒绝几乎不再被攻破),而Llama则显示出多个从拒绝状态成功越狱的渗透路径。此外,实验还发现变异器的有效性在模型间呈现不对称性,且不同模型的时间-越狱分布相差一个数量级。这项研究提供了更深入理解LLM安全行为的方法,适合AI安全研究人员、红队评估人员以及LLM安全开发人员阅读。

💡 推荐理由: 传统的攻击成功率指标失于粗糙,过程挖掘方法能揭示模型防御行为的深层结构,帮助安全团队发现不同模型在对抗攻击中的薄弱环节,从而设计更针对性的防御策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
推荐 5.5
Conf: 50%
👥 作者: Shifat E Arman, Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin

该论文研究了工具增强型大语言模型(LLM)代理在面临提示注入攻击时的安全性问题。现有评估通常仅关注单一攻击表面(如工具输出)并报告一个固定的攻击成功率(ASR),但作者指出工具描述(tool descriptions)是另一个被忽视的攻击表面——代理在每次调用工具前都会读取该描述,攻击者同样可以在此处植入恶意指令。为了验证这一假设,作者保持注入载荷(payload)字节级一致,通过工具输出和工具描述两个表面,在来自6个模型家族的13个LLM以及4个任务套件上进行了6830次攻击实验。结果发现,相同的payload在不同模型上的成功率呈现出镜像反转模式:例如,GPT-4.1在工具输出表面具有96%的成功率,但在工具描述表面仅为4%;而Gemini 3 Flash则相反,分别为20%和98%。方差分解显示,攻击表面的独立贡献为0%,而模型与表面的交互作用贡献了16.7%的变异。这表明脆弱性并非取决于单一通道,而是模型-表面的配对属性。为此,作者提出了自适应攻击率(Adaptive Attack Rate, AAR),即取所有表面上每个模型-任务的最高成功率,平均比最强固定表面基线高出9.1个百分点。进一步实验发现,标准的提示级防御(如过滤、指令对抗)继承了同样的盲点:它们能将工具输出表面的ASR降至10-18%,但工具描述表面的ASR仍高于54%。该研究揭示了当前LLM安全评估的单表面偏见,强调防御和评估必须报告每个表面的脆弱性。

💡 推荐理由: 打破了'单一表面即可衡量模型脆弱性'的常见假设,指出安全评估必须覆盖所有攻击表面(如工具描述),否则将严重低估风险。对于构建LLM代理的团队,这是必须知晓的设计盲点。

🎯 建议动作: 纳入内部评估,要求安全测试覆盖工具输出和工具描述两个攻击表面;重新审视现有防御策略的有效性。

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Mohammed Kharma, Ahmed Sabbah, Mohammad Alkhanafseh, Mohammad Hammoudeh, David Mohaisen

本研究针对大型语言模型(LLM)在自动代码生成中存在的安全问题,进行了全面的实证评估。尽管LLM显著提升了软件开发效率,但其生成的代码常因忽略关键安全考量(如弱加密、输入验证不当)而存在漏洞。作者选取了五种LLM和四种编程语言(Java、C++、C、Python),系统比较了多种提示工程方法对代码安全性的影响。特别地,他们提出了一种名为“弱点感知零样本思维链(WA-0CoT)”的提示策略,通过注入基于CWE映射的安全上下文来引导模型推理,旨在减少漏洞。实验采用卡方检验分析,结果显示:不同提示方法在漏洞频率或密度上并未产生统计学显著差异,但包括WA-0CoT在内的提示策略系统性地改变了CWE类别分布的组成,且该影响因编程语言而异。主要贡献在于:1)提供了跨模型、跨语言的LLM生成代码安全性的系统评估;2)揭示了仅靠提示工程无法可靠降低总体漏洞水平;3)强调了在评估LLM生成代码安全性时,需考虑语言感知和模型感知的提示设计。该研究适合安全研究人员、LLM开发者以及关注AI代码生成安全性的工程团队阅读。

💡 推荐理由: 该研究揭示了当前LLM代码生成中提示工程在安全方面的局限性,提醒从业者不能依赖简单提示来防范漏洞,需结合静态分析、安全审查等多重措施。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz

本文提出了一种面向真实世界场景的AI渗透测试代理评估协议。现有基准测试(如夺旗、远程代码执行、漏洞复现、轨迹相似度等)通常在简化或狭窄环境中评估代理,无法充分体现真实渗透测试中的复杂性、开放性探索和战略决策需求。作者设计的新协议将评估从任务完成转向漏洞发现验证,支持在具有多重攻击面和漏洞类型的复杂目标上进行评估。协议核心包括:基于结构化真实数据与LLM语义匹配的漏洞识别;采用二分图匹配解决歧义发现;持续维护真实数据;对随机代理进行重复和累积评估;引入效率指标;以及可持续实验的测试集缩减选择。该协议能更真实、更具操作性地比较AI渗透测试代理的实际性能。作者还发布了专家标注的真实数据和代码(https://github.com/jd0965199-oss/ethibench)以促进可复现研究。本文适合AI安全研究人员、渗透测试工具开发者、以及关注自动化安全评估的蓝队人员阅读。

💡 推荐理由: 现有AI渗透测试基准无法真实反映代理在现实环境中的能力,本文提出更贴近实战的评估协议,有助于筛选真正有效的安全自动化工具,推动AI辅助渗透测试技术落地。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Thomas J. Neubert, Laxima Niure Kandel, Berker Peköz

该论文针对开放、非密的安全自主研究受限于无法接触实际作战平台、受争议通信基础设施和代表性对抗测试条件的问题,提出了一种面向威胁的数字孪生方法,用于对具备学习能力的自主平台进行网络安全评估。该方法被实例化为一套开源、模块化的数字孪生系统,模拟典型的自主堆栈,包含分离的感知、自主控制和监控功能;置信度门控的多模态感知;显式的指令与遥测信任边界;以及运行时保持安全的行为。贡献在于方法论层面:一个可复现的设计模式,将威胁分析转化为可观察、可控制的测试,针对欺骗、重放、畸形输入注入、降级感知和对抗性机器学习压力。虽然实现的代理基于地面平台,但架构有意围绕与无人机和空间系统共享的堆栈元素构建,包括受限的机载计算、间歇性或高延迟链路、概率感知和关键任务恢复行为。结果是提供了一个可实施的研究框架,用于无人机和空间领域的可靠且安全自主研究。

💡 推荐理由: 为蓝队提供了一种低成本的数字孪生测试床,无需物理平台即可模拟对抗条件下的自主系统安全评估,尤其适用于无人机和太空等受限环境。

🎯 建议动作: 研究跟进

排序因子: Community 数据源 (+1) | LLM 评分加成 (+0.5)