AIOps落地实践:运维机器人之任务决策系统演进
作者:网友投稿 时间:2018-09-21 16:37

图片来自包图网
【51CTO.com原创稿件】应对 AIOps 自身挑战的技术路线是从全维监控到全维关联,最后到全维智能。任务机器人是 AIOps 系统的核心,基于它才能实现全维关联和全维智能。
2018 年 5 月 18-19 日,由 51CTO 主办的全球软件与运维技术峰会在北京召开。
在“容器下的 AIOps”分会场,宜信研发总监张真做了主题为《运维机器人之任务决策系统演进》的精彩演讲。
演讲过程中,作者分析了 AIOps 系统的目标与挑战,对运维机器人和任务决策系统进行了阐述、对任务决策系统演进做了深入的剖析。
AIOps 自身的目标与挑战
宜信是一家金融企业,业务关联复杂性非常高,如图 1 是由宜信 UAVStack(全维监控软件)产出的状态监控图。

图 1:UAVStack 产出的状态监控图
这张错综复杂的状态图,描绘了宜信所处的生产环境中,应用、数据库、服务和缓存等多个关联件之间的调用与关系。
面对这样复杂的业务规模,尤其是微服务架构上,即便是一个非常简单的微服务,排除故障都不是易事。
这样的状态下,自动化运维不再是最佳选择,AIOps 系统势必成为必然。
AIOps 系统可以通过深度洞察能力为运维提供持续、高质量的效率运转,相比自动化运维来说,不会再受限于人的生理极限和认知局限。
在做 AIOps 系统之前,需要设立明确的目标,更重要的是需要应对种种挑战并分析透彻。
三大目标
目标一:时效类。自动化运维虽大幅度提高了我们的时效,但核心决策者仍然是人。
当超越了人的生理极限,效率也将很难保证,但是 AIOps 系统则不存在上述问题。
目标二:深度洞察。人的认知有局限性,AIOps 系统则可以利用大数据,洞察更多现存问题与未知的运维模式。
目标三:自主调优。AIOps 系统可以自主保持系统最优状态,自主生成达成目标需要的执行计划。
六大挑战
理想与现实究竟有多远?构建 AIOps 系统的过程中需要面对的挑战如下:
如何获取高质量,高时效的监控数据。传统监控体系中,想要获得更多的数据就必然要建立各种系统。这些系统本身在时效和品控层面如何达成一致是个难题。
多维度数据如何实现高效关联。仅有数据不能解决任何问题,需要把所有数据有机有效进行关联才可以。
如何实现运维场景的实时感知。工程师之所以比传统监控和运维系统靠谱,主要是因为运维工程师了解非常多的现实认知能力,如机房、网络、虚机等相关详情。
如果希望 AIOps 系统做的更好,就需要增强其运维场景的感知能力。
AI“工程化”的复杂性。实际过程中,把机器学习算法落地到实际场景的这个过程还有很多的路要走,相比实验室中的机器学习要难很多。
机器学习模型的训练困境。生产运维中 SLA(Service-Level Agreement,服务等级协议)的矛盾和故障样本太少,致使仿真模拟有局限。
遗留技术栈,混合架构的复杂性。初创公司会有大量历史的遗留技术栈与混合技术架构,遗留系统“业务需求”变更频繁。那么,要如何使它们很好的融合到 AIOps 系统呢?
确定目标,明晰挑战之后,宜信制定了适合自己的 AIOps 技术路线,如图 2 所示。

图 2:AIOps 的技术路线
AIOps 的技术路线分为三个步骤:全维监控、全维关联和全维智能。
全维监控阶段,需要将监控体系进行统一,尽量去获取高质量高时效的监控数据,利用监控软件去提取不同运维场景中的源数据,同时去适应和适配遗留技术栈和各种混合架构。
全维关联阶段,需要将多维数据进行高效关联,同时解决机器学习模型的训练困境问题。全维智能阶段,需要花费时间攻破 AI 工程化的复杂性。
运维机器人是 AIOps 系统的核心
确定 AIOps 的技术路线后,宜信首先落地的是权威监控平台——“运维机器人”。
运维机器人,也叫 AI-Mission-Robot(任务机器人),如图 3 所示:

图 3:运维机器人




