加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 云计算 > 正文

【2018可信云大会】腾讯聂鑫: 腾讯AIOps实践演进

发布时间:2018-08-30 12:01:50 所属栏目:云计算 来源:中国IDC圈
导读:副标题#e# 聂鑫:来腾讯工作快12年了。在腾讯服务的12年里都在一个部门没有变过。2006年去腾讯的时候正好赶上腾讯在做DO分离,第一代BAT企业应该也都是在那个时候开始推进运维和研发分离这件事。那时候的运维什么基础都没有,一穷二白,真的很艰难,除了不

第二个是很多人会挑战说只设置一个指标。比如说产品和在线收入都应该做,每一个服务要把各方面都监控起来,可以看下PPT,为了监控一个服务,设400个监控指标,就是为了监控各方面的数据,有的阈值不对,造成大量的误告警。所以我们规定一个服务只能一个指标。生死指标衡量这个指标是生是死。

第三个是不建议用业务指标。比如说收入,在线。我们推的时候,产品反馈阻力最大,他们认为收入很重要,但对一个服务来说,在线才是衡量业务最重要的指标。但是反过来,这些产品指标受什么影响?除了受服务质量影响也有很多受策略影响,比活动、推广,产品策略调整,涨或跌,都会产生大量的告警。我也不建议做业务指标做告警。因为有了这三个之后DLP就产生了。

不让用阈值了,用什么?我们方法很简单,用一个滑动窗口,4、5分钟左右的一个滑动窗口,根据环比和同比的数据,算出一个动态区间,只要是在区间之内的都不告警,只有超过一定的时间,比如说5分钟就告警。方法很简单,很容易实现。这是我们从几百个指标中去选择几个关键的指标做成DLP。有人常会问这么多的指标怎么选?我们选成功率,如果没有成功率,也可以从这些指标里面可以找出成功数,总数,简单的算法就是算出成功率或失败率。

这套系统上线之后,在推动时阻力很大。业务的研发、产品,都觉得对这种方式不太认同。但是推了几个业务之后,发现效果特别好,因为这个告警的准确率特别高,高达95%以上。一旦告警爆出来基本上是有问题。咱们的研发团队开始觉得,我原来是靠我的告警发生的频率来看有没有故障,一天几百条看不完,现在只要DLP一告警就一定代表有故障,定位问题的时候会非常集中。所以从一开始比较的有排斥心理到慢慢开始接受这种方法论了。

以上的两个小的案例是我们比较有意思的,有我们自己的特点。后面想分享一下怎么通过AI把这个做的更加自然化。

前面四个图我们通过AI怎么做?一开始我们认为AI应该能解决。前面的DLP是用了3Sigma,还有一些算法都跟3Sigma类似。后来我们干脆就上无监督的,希望找一些算法。也用了One-Class SVM,Isolation Forest。最后,发现做AI还是要靠数据,需要人工打标的这个事情。有监督我们也做了,最后我们想干脆把三个算法串起来。所以后来我们开始尝试做一种思路,就是首先把我们的监控领域的数,先扔到我们的算法里面跑一遍,统计判别把符合正态分布的,没有问题的先过滤一遍。疑似有问题的通过无监督的方式,把明显有毛刺的,比如说前面第一张图上去马上下来这种,但是不是严格意义上将这种问题给过滤掉。再进入有监督,我们会把剩下的量不太大的数据,就到我们的QQ群,利用自己的优势,自己建QQ群,发一些有疑问的曲线,我们的运维工程师在群里打标,这个要告警,或者是不要告警,打标之后再去做。目前为止政府样本超过1万个。基于这三个,我们训练出一个模型,放在监控系统最后,所有的告警首先经过我们的模型之后才会发出告警,这就是萧总提到的学件。

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读