#adversarial

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Haoyu Zhang, Mohammad Zandsalimy, Shanu Sushmita

该论文揭示了大型语言模型(LLM)安全机制在数学编码攻击下的严重漏洞。当前LLM的防御主要依赖语义模式匹配,作者提出了一系列将有害提示编码为连贯数学问题的方法,包括集合论、形式逻辑和量子力学等数学形式体系。实验在8个目标模型和两个基准测试上进行,平均攻击成功率高达46%至56%。关键发现是攻击有效性取决于是否将有害内容深度重构为真正的数学问题:仅使用数学格式的规则编码并不比未编码基线更有效。作者引入了一种新颖的形式逻辑编码,其攻击效率与集合论相当,表明该漏洞在不同数学形式体系间具有泛化性。额外实验显示,重复后处理(如多次LLM审核)难以阻止此类攻击,表明其鲁棒性。值得注意的是,较新模型(如GPT-5、GPT-5-Mini)表现出更强的鲁棒性,但仍有漏洞。该研究强调了当前安全框架在应对非语义层面的攻击时存在根本性缺陷,为开发基于数学结构推理的防御策略提供了方向。适合AI安全研究员、LLM开发者和安全工程师阅读。

💡 推荐理由: 该研究揭示了一种绕过LLM安全过滤的新型攻击向量,利用数学编码而非自然语言语义,对当前依赖语义模式匹配的防御机制构成重大挑战,促使安全社区重新评估和增强LLM的安全策略。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.6)
👥 作者: Hiroyuki Deguchi, Katsuki Chousa, Yusuke Sakai

该论文研究了多模态编码器(如CLIP)在跨模态检索和评估任务中存在的“中心点”(hubness)问题。在高维嵌入空间中,某些嵌入点(称为hub)会与大量不相关样本具有高相似度,这可能导致跨模态相似性计算的异常。作者提出了一种方法,能够识别出这样的hub嵌入以及对应的hub文本。具体地,他们通过分析嵌入空间的分布特性,找到那些在多个查询中频繁成为近邻的嵌入点,并据此生成或筛选出hub文本。实验在MSCOCO和nocaps的图像描述评估任务,以及MSCOCO和Flickr30k的图像到文本检索任务上进行。结果表明,存在单个hub文本,其与大量图像计算得到的相似度分数,不合理地达到甚至超过了人工撰写的参考描述。这揭示了当前跨模态编码器的脆弱性:攻击者可能利用此类hub文本操纵检索结果或评估指标。论文的主要贡献是系统性地展示了hubness对跨模态编码器的实际威胁,并提供了诊断方法。适合关注多模态AI安全、信息检索鲁棒性的研究人员阅读。

💡 推荐理由: 该研究揭示了多模态编码器的结构性漏洞,单个文本即可污染检索或评估结果,威胁内容审核、图像搜索等应用的可靠性。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)