加入收藏 | 设为首页 | 会员中心 | 我要投稿 惠州站长网 (https://www.0752zz.com.cn/)- 办公协同、云通信、物联设备、操作系统、高性能计算!
当前位置: 首页 > 云计算 > 正文

IDCC2018|民生银行毕永军:智能运维处于1.0阶段,要从痛点出发

发布时间:2019-01-03 07:21:21 所属栏目:云计算 来源:中国IDC圈
导读:副标题#e# 中国IDC圈讯 12月11日-13日,由中国IDC产业年度大典组委会主办,中国IDC圈、CloudBest承办的以赋能企业数字化转型为主题的第十三届中国IDC产业年度大典(简称IDCC2018)在北京国家会议中心隆重召开。 13日上午,IDCC2018分论坛智能运维安全论坛正

下面简单讲一些场景,一个就是可视化,怎么做可视化?我们系统的情况也要做感知,我们应用系统放到显示屏上,对接了所有告警的数据,交易性能的数据都对接上去,包括系统架构图,整个呈现在上面。我们运行人员可以感知到系统的情况,如果某些情况出现问题,就看关联系统是什么,有哪些报警,都可以直观的呈现出来。

我们大概分三步,一个是故障发现,一个是故障定位,一个是故障解决,还有智能异常检测,自动故障定位,调用链路分析,底层就是用到的一些数据,基于网络流量的交易监控的指标,CMDB的数据,机器的监控指标,基于流量镜像的交易信息数据。

这是智能异常检测,我们和清华大学合作,2018年做了无监督的算法,对相似指标做了定位,因为我们系统非常多,要求还是很高的,算法整体上做了一些优化,平均的时间是1.5秒,把我们52套系统400多个业务指标进行异常检测,重点是关注业务,整体来看出了问题之后提高的有效率还是不错的。

故障定位,以前也做过,现在是我们机器学习,就是看指标异常不异常,我们指标非常多,我们可以加人,把异常的指标出来,人再去判断一下。故障出现前后的时间,我们利用这段时间,6.5分钟就可以算出异常的指标,右下角就是同时出现异常的情况,方便我们可以进一步排查。

调用链路分析,我们可以获得直观的呈现图,拿出一个系统来,其他系统调用都可以呈现出来,在日常运维过程中用得挺多的,可以去判断哪个系统有问题。

举一个案例,仪表盘报警了,我们做故障检测,形成这么一个图,发现这个系统都调其中一个系统,因为所有系统一起出问题的概率是很低的,我们去看这个问题的时候,通过我们刚才讲到的异常检测,会发现排名比较靠前的,最后发现就是这个问题,进程宕掉了,某一个数据库节点出问题了,这个筛选了2700多个指标,一起找出原因,效果还是不错的。

现在系统比较复杂,中间这个业务可能很多时候没有不能像以前的强一致性,我们要进行分析,看具体哪个交易出问题了,看本身的调用链路的耗时,也可以对接到日志平台,看当时日志的输出来进行判断,把我们的故障发现和处理的过程可以串接起来。还有日志检测,咨询机器人等等,就不一一讲了。

关于智能运维的思考,通过我们一年多的实践,运维数据的治理是非常重要的,只有规范集中的数据才能发挥最大的价值。就像人脸识别一样,拍的象素很低,让算法去识别,跟清晰度很高的效果绝对是不一样的。我们的智能运维还处于1.0阶段,我们要从痛点出发。我们认为大数据分析和可视化仍然有很多地方可以做,通过大数据分析跟可视化,可以给我们运维带来非常大的价值。

这是Gartner今年的技术成熟度的曲线,可以看到还处于前期探索的阶段,还有5到10年的时机,还是大有可为的,应该持续的投入。

(编辑:惠州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读