#information-theoretic

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Yiwei Zhang, Jeremiah Birrell, Reza Ebrahimi, Rouzbeh Behnia, Jason Pacheco, Elisa Bertino

本文提出一种基于信息论的对抗训练框架WARDEN,用于提升大型语言模型(LLM)对提示注入等对抗攻击的鲁棒性。当前LLM虽经过对齐与安全训练,仍易受新型攻击策略诱导产生有害行为。现有对抗训练方法计算成本高、难以扩展。最近出现的连续对抗训练方法(如CAT、CAPO)通过在嵌入空间利用梯度扰动生成更高效且表达力强的攻击样本。WARDEN在此基础上引入分布鲁棒优化思想,使用f-散度(特别是KL散度)构建一个围绕经验训练分布的模糊集,动态重新加权对抗样本,优化该模糊集内的最坏情况对抗损失。通过凸对偶转化,目标函数简化为对数-求和-指数(log-sum-exp)形式,并包含一个动态参数控制重加权强度。实验在多个LLM和多种攻击设置下进行,结果表明WARDEN在保持模型效用(如生成流畅性、准确性)的同时,显著降低攻击成功率,且计算与效用成本与CAT、CAPO、MixAT等基线方法相当,使其成为可扩展的鲁棒对齐实用方案。该方法特别适用于需要高安全性的LLM部署场景,如聊天机器人、内容生成等。

💡 推荐理由: 该工作针对LLM对抗鲁棒性的核心挑战,提出一种计算高效且通用的训练方法,可直接降低恶意提示引发的安全风险,对安全工程师与研究者有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Hassan Khodaiemehr, Khadijeh Bagheri, Chen Feng, Dariia Porechna

本文提出 SILMARILS,一种基于信息论和量子安全的设计者验证签名方案,构建于有限域 F_p 上的最小代数核心,使用真随机性和完美 2-out-of-2 Shamir 秘密共享。方案支持两方和三方模式。两方模式下,实现可转移设计者验证签名(TDV):指定验证者能够模拟出与真实签名不可区分的接受副本,满足 Jakobsson-Sako-Impagliazzo DV 安全;验证者可发布收据 r 用于公开验证,但即使有 r,外部方也无法区分签名或模拟。针对非指定验证者,在随机预言模型和量子随机预言模型中证明了 EUF-CMA^¬DV 安全性。三方模式下,采用 Fitzi 等人的广播模型,获得基于模拟安全的统计安全签名协议,错误率 1/p。安全性在纯信息论模型、IT+ROM 和量子随机预言模型下分析,并将 Fitzi 框架扩展到具有经典 I/O 的量子敌手。方案实现了正确性、保密性、可转移性和不可伪造性,且与基于模拟的安全等价。由于代数结构简单,SILMARILS 的密钥和签名尺寸显著小于 Dilithium、Falcon、SPHINCS+ 等标准化后量子方案,同时在后量子环境下提供 TDV 安全,特别适合区块链应用。

💡 推荐理由: 首次在信息论和量子安全框架下实现可转移设计者验证签名,密钥和签名尺寸远小于现有后量子标准,对区块链等需要高效签名且支持模拟的认证场景具有重要参考价值。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)