大数据时代,分布式系统成为信息存储和处理的主流系统。相对于传统系统而言,分布式系统更为庞大和复杂,故障发生的平均几率比较高,其运维的难度和复杂度大大提高。如何对分布式系统进行高效、准确的运维,成为保障信息系统高效、可靠运行的关键问题。
基于技术手段(包括但不限于机器学习、深度学习等技术)对分布式系统的故障数据进行分析,设计故障诊断模型,高效地分析并识别故障类别,实现分布式系统故障运维的智能化,快速恢复故障的同时大大降低分布式系统运维工作的难度,减少运维对人力资源的消耗。在分布式系统中某个节点发生故障时,故障会沿着分布式系统的拓扑结构进行传播,造成自身节点及其邻接节点相关的KPI指标和发生大量日志异常。