#secret-alignment 主题 - Cyber Security Daily Radar

👥 作者: Jianwei Li, Jung-Eun Kim

该立场论文指出，AI/ML 社区不应过度使用“正向后门”（positive backdoor）这一标签，而应将触发激活的隐藏行为视为“秘密对齐”（Secret Alignment）。在私有AI时代，开放权重的大语言模型和可获取的训练/推理栈使语言模型成为私有数字资产，带来了未经授权访问、模型窃取和行为滥用的安全风险。最近，一系列被称为“正向后门”的工作被提出以应对这些挑战，其核心思想是在模型中植入隐蔽的触发-行为关联，用于访问控制、所有权归属和安全强制。本文将这些方法统一为秘密对齐的一种形式，并评估了三个代表性应用在六个核心属性（有效性、无害性、持久性、效率、鲁棒性和可靠性）上的表现。结果表明，触发-行为映射在机密性、完整性、可用性（CIA）方面存在显著的脆弱性，远不如现有声称的那样可靠。作者进一步将结果关联到行为密度和决策复杂度，提供了一个行为学视角来理解部署时风险，并呼吁社区采用严格的、标准化的评估来使秘密对齐的主张可证明。

💡 推荐理由: 纠正了对“正向后门”的误用，强调了对模型隐藏行为进行严格评估的必要性，对LLM安全部署和防御有重要指导意义。

🎯 建议动作: 研究跟进

排序因子: 来自 arXiv 其他板块 (+2) | 命中热门研究主题 (+2) | Community 数据源 (+1) | LLM 评分加成 (+0.5)

#secret-alignment

Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation