我试了所有AI安全工具，发现都在撒谎

硅屿手记

2026-05-15 00:43 ·北京

上周，一位安全研究员在测试市面上主流的AI+安全工具时，发现了一个令人不安的模式：这些工具声称能检测恶意提示、识别数据泄露风险，实际表现却与宣传严重不符。

测试覆盖了六款热门产品，场景包括常见的提示注入攻击和敏感信息过滤。结果显示，四款工具对基础攻击向量完全失效，两款存在严重的误报问题。更关键的是，这些产品对外宣称的"军用级防护"在公开测试集上从未被验证过。

打开网易新闻查看精彩图片

这位研究员最终决定自建检测框架。核心思路很简单：放弃黑盒承诺，用可审计的规则集替代不可解释的AI判断。第一版工具在GitHub开源后，48小时内获得超过2000星标。

打开网易新闻查看精彩图片

这件事暴露了一个行业通病——AI安全赛道正在重复2010年代云安全的营销陷阱。当买家无法验证防护效果时，卖家就会倾向于夸大。真正的问题或许不在于技术，而在于信息不对称本身。

打开网易新闻查看精彩图片

特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。

打开网易新闻体验更佳