本文针对SQL注入(SQLi)攻击这一长期位列OWASP Top 10的安全威胁,探索利用大型语言模型(LLM)自动化生成对抗性SQL注入测试载荷的方法。作者提出了两种新型基于LLM的系统:RADAGAS(基于检索增强生成的对抗性SQLi生成)和RefleXQLi(基于反思链式思维的SQLi生成),并与现有基线模型进行对比。实验针对10种Web应用防火墙(WAF)和1个基于MySQL的执行验证器展开,涵盖6种基于规则的开源WAF(ModSecurity PL1-3、Coraza PL1-3)、2种基于AI/ML的WAF(WAF Brain、CNN-WAF)以及2种商用WAF(AWS WAF、Cloudflare WAF)。使用的LLM模型包括GPT-4o、Claude 3.7 Sonnet和DeepSeek R1。共计开展240组实验,生成24万个载荷,并执行了220万次WAF绕过测试。结果表明,RADAGAS-GPT4o组合以22.73%的绕过率优于其他基线模型;所提出的RADAGAS变体在AI/ML型WAF上表现突出(RADAGAS-DeepSeek对WAF-Brain绕过率达92.49%,RADAGAS-Claude对CNN-WAF绕过率达80.48%),但在基于规则的WAF上绕过能力有限(对ModSecurity和Coraza的绕过率仅为0-5.70%)。此外,研究发现产生多样性较低的载荷更容易绕过,但若初始载荷失败则整体效果不佳。该研究为利用LLM进行安全测试提供了全面视角。
💡 推荐理由: 帮助蓝队了解LLM在自动化生成SQLi测试中的能力边界,特别是对不同类型WAF的绕过效果,从而评估自身防护体系的薄弱环节。
🎯 建议动作: 研究跟进