上周,一位安全研究员在测试市面上主流的AI+安全工具时,发现了一个令人不安的模式:这些工具声称能检测恶意提示、识别数据泄露风险,实际表现却与宣传严重不符。
测试覆盖了六款热门产品,场景包括常见的提示注入攻击和敏感信息过滤。结果显示,四款工具对基础攻击向量完全失效,两款存在严重的误报问题。更关键的是,这些产品对外宣称的"军用级防护"在公开测试集上从未被验证过。
这位研究员最终决定自建检测框架。核心思路很简单:放弃黑盒承诺,用可审计的规则集替代不可解释的AI判断。第一版工具在GitHub开源后,48小时内获得超过2000星标。
这件事暴露了一个行业通病——AI安全赛道正在重复2010年代云安全的营销陷阱。当买家无法验证防护效果时,卖家就会倾向于夸大。真正的问题或许不在于技术,而在于信息不对称本身。