0
AWS最近发了一篇关于端到端智能体SRE(站点可靠性工程)的文章,我读完后有两个反应同时冒出来。第一个是:当然,这很合理。故障响应里充斥着重复性的排查工作,智能体(agent)确实能帮上忙。第二个是:完了,我们肯定要在这上面栽跟头。
不是说SRE智能体是个坏主意。恰恰相反,我认为这是AI最有价值的应用方向之一。但"值班告警"(pager)的环境,和周二下午安静的编程任务完全不同。生产事故是模糊自动化、不完整上下文、权限配置混乱和过度自信摘要的放大器——平时只是烦人,此刻直接烧钱。
很多故障处理工作并非什么英雄式的调试。它是在压力下收集上下文:看仪表盘、对比部署时间戳、翻日志、检查错误率、确认是不是某个区域更严重、排查依赖服务是否降级、在Slack里搜最后碰过这系统的人、读一份大概七成准确三成考古的运维手册。这种 messy、工具密集的工作流,正是智能体能发挥作用的地方。
一个能拉取CloudWatch指标、查询链路追踪、总结日志、检查近期部署并整理时间线的智能体,确实能省下宝贵的分钟数。而客户宕机、所有人假装镇定的时刻,分钟就是金钱。Stack Overflow最近也发了一篇关于可观测性与AI时代人类直觉的文章,那个框架很重要:目标不是取代直觉,而是给人类一个更好的判断起点。好的故障智能体应该让人更敏锐,而非更被动。
危险在于那个动词。当智能体从"看"变成"做",问题就开始了。"总结过去30分钟的5xx错误激增"和"回滚部署"之间,隔着一条巨大的鸿沟。前者是调查,后者是操作。两者都有用,但只有后者能在三秒内让事故恶化。
很多AI演示在这里具有误导性。演示里,智能体诊断问题、提出修复方案、执行操作,曲线变绿,完美。但在生产环境,它可能把症状当根因、用修复掩盖信号、或者对某条客户路径有效的同时搞崩另一条。人类也会犯这些错,但人类通常更慢、更有社会问责压力、更容易被打断。一个权限宽泛的智能体,可以非常高效地犯错。而效率,在事故中未必是朋友。
想要智能体SRE,可观测性不是锦上添花,它是安全系统。没有高质量的信号,智能体就是在盲人摸象——而且摸得很快。