#biosecurity

共收录 2 条相关安全情报。

← 返回所有主题
👥 作者: Caleb DeLeeuw

该论文研究了语言模型在生物安全场景下的拒绝行为可靠性。传统评估关注模型是否生成有害输出,但本论文提出一个补充问题:当模型拒绝时,其拒绝是否结构稳固,抑或在提示措辞、格式或输出长度的微小变化下消失?作者在五种架构(Gemma 2 2B-IT、Gemma 4 E2B-IT、Qwen 2.5 1.5B、Phi-3-mini、Llama 3.2 1B)上进行了实验,使用75个提示评估模型对生物安全相关查询的拒绝一致性。结果显示,没有模型能清晰区分良性查询和有害查询。Gemma 2 2B-IT在75个提示中从未真正拒绝,对每个接近危险的查询都采取规避态度;Gemma 4 E2B-IT在使用聊天模板格式时拒绝65/75,但无格式时拒绝0/75;两个Gemma模型在80 token限制下拒绝率降至0%。Qwen 2.5 1.5B和Phi-3-mini则过度拒绝,将83-87%的良性生物学查询标记为有害。Llama 3.2 1B展现了唯一有意义的分级梯度(61点跨度)。为探究过度拒绝的驱动因素,作者测试了一组Schedule I但生物无毒性的化合物(特别是裸盖菇素培养,具有FDA突破性疗法地位),部分模型对这些化合物的拒绝率甚至超过真正的生物危险物,表明拒绝行为更多取决于法律和文化显著性,而非CBRN(化学、生物、放射性和核)危害程度。为测量内部状态,作者引入了分歧分数D,比较模型表面响应标签与其内部稀疏自编码器(SAE)特征激活之间的差异。在Gemma 2 2B-IT(使用Gemma Scope 1)和Gemma 4 E2B-IT(作者训练的Bio SAE)上计算了完整D。发布了两个微调后的Gemma 2领域SAE。在Gemma 4上,遵守与拒绝响应之间D分数差距为0.647,且零重叠(n=75),但该结果仍是初步的,存在类别目录狭窄、样本内校准及仅涵盖Gemma家族SAE等局限。本工作在消费级硬件(GTX 1650 Ti Max-Q,SAE训练用Colab T4)上一个黑客马拉松周末完成,表明激活级审计可能揭示行为评估无法发现的失败模式,且不同架构间存在显著差异。

💡 推荐理由: 该研究揭示了当前语言模型在生物安全拒绝机制中的系统性漏洞:拒绝行为在微小扰动下极易失效或过度泛化,且模型依赖文化合法性而非实际危害做判断,这对AI安全防护的可靠性构成挑战。

🎯 建议动作: 研究跟进,关注其提出的激活级审计方法,可考虑在内部评估中引入类似分歧分数来检测拒绝不一致性。

排序因子: 来自 arXiv 其他板块 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)
👥 作者: Alan T. Sherman, Jeremy J. Romanik Romano, Edward Zieglar, Enis Golaszewski, Jonathan D. Fuchs, William E. Byrd

本文对SecureDNA系统的安全设计、工程实施进行了全面分析。SecureDNA是一种旨在防止生物恐怖主义并支持合法DNA合成的综合安全系统,通过在全球范围内对DNA合成订单进行筛查,确保只有合法、安全的DNA序列被合成。论文首先介绍了SecureDNA的架构,包括其核心组件:安全内核、策略引擎、远程验证和审计机制。接着,论文深入分析了该系统的威胁模型,涵盖了从内部攻击者到外部APT的各种潜在威胁。作者评估了SecureDNA的密码学基础,包括用于订单加密和身份验证的协议,并讨论了密钥管理、访问控制和安全启动等关键安全机制。此外,论文还探讨了系统在实现过程中的工程挑战,如性能优化、容错性和可扩展性。实验结果表明,SecureDNA在合理的性能开销下能够有效抵御多种攻击,包括订单篡改、身份伪造和拒绝服务攻击。论文的主要贡献在于首次对真实的生物安全系统进行了完整的安全审计,并提出了可推广至其他关键基础设施安全设计的经验教训。该研究对于生物安全、关键基础设施防护和安全架构设计具有重要的参考价值。

💡 推荐理由: 随着合成生物学的快速发展,DNA合成订单的恶意使用已成为真实威胁。SecureDNA是首个大规模部署的DNA筛选安全系统,本文对其安全设计的分析为蓝队理解关键基础设施的安全架构提供了宝贵案例。

🎯 建议动作: 研究跟进

排序因子: 来自网络安全顶级会议 (+8) | Community 数据源 (+1) | LLM 评分加成 (+0.5)