运维知识库建设方案(知识库运维是什么意思)一看就会
运维知识自动化系统是运维智能化的一种实现方式,是通过知识自动化的方式实现运维专家系统的一种技术实现途径。本文
运维知识自动化系统是运维智能化的一种实现方式,是通过知识自动化的方式实现运维专家系统的一种技术实现途径本文是白鳝在“知识服务创新发展知识论坛”上的一个演讲稿,主题是和大家探讨在运维知识自动化领域如何通过智能标签来实现服务路径的自动发现。
根据麦肯锡在2017年发布的一份关于未来颠覆性技术的咨询报告中,知识工作自动化领域被排在第二位,仅次于目前红的不能再红的移动互联网知识工作自动化是应用大数据、人工智能技术,通过对数据建模,建立专家系统,实现工作的自动化。
运维知识自动化是基石数据创造的一个新词汇,受启发于知识工作自动化,将知识工作自动化的理念引入到智能运维领域,从而创造出一个全新的应用模式2017年9月开始,基石数据启动了以运维知识自动化为核心的智能运维平台,D-SMART智能运维系统。
该系统的目标是采用知识工作自动化的模式创建一个专家系统,帮助我们的运维人员去运维信息系统,让一个水平一般的运维人员嫩够达到一个中等专家的水平去分析与处理运维工作中遇到的问题在运维知识自动化领域,最具有挑战性的是服务路径的自动发现。
服务路径的自动发现是区分一个知识自动化系统从专家系统向真正智能系统演进的重要标志,没有服务路径自动发现能力的专家系统严重依赖于专家手工梳理知识,工作量极大,同时这样的系统不具备自我成长能力,其水平依赖于提供知识的专家,无法突破专家的能力极限。
而具有服务路径自动发现能力的专家系统,能够发现专家尚未发现的服务路径,从而超越专家,实现真正的数据智能基石数据在一年多的应用实践中,对基于智能标签的服务路径自动发现进行了相关的实践,取得了一定的成果本文的主要内容是将这些成果发布出来,与致力于知识工作自动化领域的同仁共享。
希望有更多的企业与团队加入到这个领域中来,共同开创智能运维的一片新天地
运维知识自动化这个词虽然是老白在2017年自己想出来的,实际上,为了解决运维中的问题所建立的智能系统的基本想法是一直存在的从二十年前兴起的基于网管思路的欲望自动化平台(比如OPENVIEW,BMC PORTAL等)。
我们把运维知识自动化的实现模式分为三种第一种是从20多年前网管平台开始就贯彻的一种建设思路,首先建立一个运维自动化平台,然后向这个平台中灌输知识,加入各种监控指标,加入基线进行监控与预警,同时提供大量的工具,用于辅助运维工作。
经过十多年的发展,随着我们所运维的系统越来越复杂,这种模式的运维自动化系统对运维的支撑能力越来越不足于是在近些年出现了大量的将运维知识进行自动化工作的尝试,情景式运维、众包式运维等创新层出不穷随着大数据与人工智能技术的发展,知识智能从以前的遥不可及的未来变得越来越清晰可见了。
于是大家又开始了一种全新的尝试,首先建立一套知识自动化体系,然后将运维知识构建到知识自动化系统中去,从而让专家的运维知识能够变成一个自动化工具去协助我们工作本文介绍的就是基石数据在运维知识自动化工作中的一个十分重要的尝试,通过智能标签实现诊断路径的自动发现。
大体来说,运维管理发展经历了四个阶段,从最初的制度化阶段开始,通过运维管理的制度化与运维指标的量化,实现问题发现、运维工作、运维效果评估的闭环管理实现制度化后的组织一般来说会进入第二个阶段,标准化阶段,实现部署、运行、管理等各个领域生产工艺的标准化。
实现标准化是自动化的前提,当标准化工作较好的完成后,已经标准化的工艺就具备了自动化的能力,在自动化阶段,可以完成指标采集的自动化,故障预警的自动化,最终实现全流程的工具化目前,大多数承担大型运维任务的组织都基本上实现了各种程度的自动化,因为随着人力成本的提升与信息系统的爆炸式发展,完全靠人工来完成运维任务越来越困难。
在运维自动化体系的建设过程中,不少组织都发现运维自动化能够很好的解决一些重复性劳动的问题,将一些繁重的,低水平的重复性工作采用自动化手段来实现是十分容易实现的,但是由于信息系统的复杂性,要想完成一些深入的诊断任务,或者说让运维自动化系统比较肯定的告诉我们系统的状态是好是坏却十分困难。
于是,智能化运维成为我们提升运维能力的一个迫切的需求在智能化运维阶段,通过人工智能与专家智能直接为我们的生产工作服务,从而提升组织的运维能力,将运维人员从繁重的监控任务中解脱出来而运维生产工艺的自动生成是智能化运维工作的终极追求,智能化系统能够自动生成专家没能够总结出来的工作工艺,从而帮助我们自动优化我们的运维工艺。
相对于智能化运维的需求,我们目前正在使用的一些运维自动化系统存在一些普遍的问题这些系统都有着完善的运维自动化能力框架,具备做任何工作的能力,但是往往不具备直接为我所用的能力没办法帮助我们去直接处置一个运维工作中的具体问题,当使用这个工具的人是个专家,这个工具就是一个专家系统,而使用这个系统的人是个二把刀,那么这个系统的能力就是二把刀。
这种系统往往提供了上万种指标的采集能力,但是没办法告诉我们某个指标异常到底是意味着什么因此这类系统往往能够帮助我们解决一些简单的问题,但是面对我们常常遇到的复杂点的问题,往往就是无能为力的究其主要原因,就是这些系统里往往只有自动化,而缺少运维中的灵魂“运维知识”。
我们的观点是,没有运维知识的运维自动化系统不是一个真正的运维自动化系统
既然前面不断的强调运维知识对于运维自动化的重要性,那么有哪些类型的运维知识呢?运维知识的覆盖面很广,其中我们经常遇到,对我们帮助最大的运维知识有专家经验、工作经验、工具脚本和技术资料这四大类实际上在所有组织的运维工作实践中,也不自觉的在使用这几类运维知识在帮助我们工作。
不管是手工的、半自动的还是自动化的
其实我们来回顾一下运维知识自动化的发展历程,就可以看出这个技术应用领域的未来了最早期,我们的所有运维知识都是以预案、标准化工艺、实施方案等的文本形态存在的一个管理的比较好的组织会定期沉淀下这些知识,用于对以后运维工作的支撑。
在所有运维知识中,最难以管理与积累的是一些小的经验,无论是专家经验还是工作经验,一些琐碎的,细小的经验往往对我们的帮助很大,但是比较难于积累,于是出现了初期的知识管理系统BMC的REMEDY中就提供了一个知识库,用于记录运维工作中发现的运维经验。
甚至很多组织将向知识库中提交知识作为一个考核指标来强制性的采集运维知识随着知识库规模的扩大,如何对知识进行分类管理,提升知识库的应用效果成为一个十分迫切的需求于是基于分类管理的知识管理平台就建立起来了通过知识分类导航,使知识的检索与查找变得更简单。
随着知识体系的越来越复杂,普通的基于类目的管理体系的弊端暴露无遗,有时候想要找一份资料的时候,如果对其分类体系不太清楚,就很难找到这份知识于是基于全网检索技术的知识管理平台逐渐兴起在这些知识平台中,度娘是运维人员的良师益友。
但是百度这类的搜索平台无法满足精准查找的需求,另外知识是一个网状结构,而百度这样的平台无法帮助我们展示网状的知识结构于是乎基于知识图谱的知识管理体系在近年来逐渐兴起基于知识图谱+全文索引的检索体系也提供了更为精准的知识检索能力。
知识图谱能够很好的展现复杂的知识体系,建立各个知识点之间的网状关系,从而进行知识引导和知识推理不过知识图谱只是一个中间型的工具,知识图谱提供了知识结构的较为合理的一种组织和积累的方式,但是知识图谱并不能直接将知识应用于实践。
因此在不远的将来,基于知识图谱的知识自动化系统将会为我们的工作提供更强大的支持这个领域的应用将会在2025年前得到爆发性的发展,在这个领域的一些重大技术突破也将会在未来几年里出现
在运维领域,基于运维工具的运维知识自动化是一个较为容易逐渐演进的实现路径。提供一个平台,能够很快的将知识自动化,从而帮助我们去解决生产中的问题。
不过要实现运维知识的工具化也存在一些难点在进行具体的实践过程中,我们首先遇到的问题是僵化固定的层次状的专家知识与网状的知识体系之间的矛盾受限于人类大脑的计算能力,专家在描述知识的时候往往是层次化的,首先是按照类目去逐步树立的,但是其实知识是一张网状结构的,随着梳理工作的进行,知识的网状特征暴露的越明显,到一定细的粒度,专家就很难进行表述了。
我们以前的专家系统往往都是固定的,通过专家梳理出来固定的处置方式,对于某些特定场景能够很好的支撑,但是在生产环境中我们遇到的场景错综复杂,预置的固定的工具很难使用实际生产环境的需求因此对于工具提出了能够动态组合的要求,从而让有限的工具能够完成复杂的诊断任务,适合复杂的实际生产环境。
当机器学习大行其道的时候,大家似乎看到了解决上述问题的希望,于是乎近年来出现了大量的号称通过机器学习来解决这些问题的产品不过不幸的是,这些产品在具体的生产环境中基本上都折戟沉沙了老白曾经与一家通过大数据分析进行系统日志智能分析的企业进行过一系列的较量和测试。
他们提出通关机器学习可以很完美的实现故障预测,只要把历史上的日志数据加载到系统中进行学习建模,就可以实现类似故障的预测了似乎是很完美的方法,不过我们如何获得建模所需要的样本?如何标注这些样本?学习出的模型普适性的还是个性化的模型?要想回答好这几个问题就十分困难了。
在一个组织内,一年可能可以产生几百TB的日志,但是这些日志中的“好”样本十分稀少,要想采集到建模所需要的几百万有效样本可能需要花上50年以上的时间,而我们的信息系统的寿命往往都不到10年另外海量的样本如何通过专家去做标注?建立这样的智能模型目前还是需要依赖于监督学习,而监督学习所需要的标注需要大量的人工,为建立这样一个模型而投入如此巨大的资源,对一个组织来说可能是无法承受的。
在经过一段时间的摸索后,基石数据逐渐发现了一些方法总结起来通过四个方面来实现我们所需要的运维知识自动化能力首先是抽取运维知识工具的结构化模型;其次是拆小知识单元,将所有的知识抽象为知识点、诊断、脚本三种基本元素;再其次是制定工具之间的协作标准化协议,建立各个节点之间通讯的基本协议,包括标准化的公共参数区、输入输出协议、上下游协同插座等;最后是引入智能标签机智,实现各种元素之间的动态串联,为最终实现诊断路径的自动化发现提供基础。
上面是一个运维知识自动化模型的案例
上面是一个动态诊断路径发现的自动机的原型设计
上面的案例,当系统发现系统的ACTIVE REDO LOG组的数量超过预期的时候回自动触发报警,运维人员可以根据报警进行诊断分析,通过系统提供的诊断路径进行路径扫描,路径扫描的结果会列出存在问题的路径,运维人员可以查看扫描出来存在问题的路径进行分析,发现问题的原因。
当预置的扫描路径未能发现问题的时候,运维人员可以利用扫描过程中发现的标签找到一些知识点工具或者脚本去进行半自动分析,当半自动分析的时候找到了一些问题点,则这条诊断路径将会被记录下来,随着日常积累的诊断数据日益丰富,后台的智能引擎会自动发现某些诊断路径,这些路径将会下沉到标准化路径中,从而实现服务路径的自动发现与优化。
实现这个比较炫酷的能力的关键是智能标签,我们的第一代智能标签都不太好意思叫智能标签,因为标签是完全固定的,是专家预先梳理的指标、基线、知识点、脚本、诊断路径上的标签都需要人工预置,系统只是根据标签去匹配推荐的诊断路径。
这种标签的弊端在具体实践中很快被发现了于是第二代标签应运而生,这个标签是真正的智能化的其特点是,第二代标签继承了第一代的专家标签系统,但是第二代标签系统是不需要预置的,所有标签可以在诊断数据中自动生成,同时标签是通过知识图谱方式进行存储管理的,专业技术词典可以让标签实现自动的匹配,完全可以不依赖于人的干预。
最后我们通过一个实际案例来解释一下智能标签的作用某个系统突然发现集群网络流量很大,超过了80M/秒,于是产生了报警诊断工具在路径扫描过程中发现了集群相关的等待事件存在问题于是建议进行数据库集群相关等待事件。
于是运维人员通过标签找到了相关的诊断工具,使用工具进行诊断。
调用这个诊断工具发现集群相关指标存在问题,并且发现集群网络存在问题,通过智能标签,找到了集群网络分析这个工具,通过这个工具进行下钻分析,发现了集群网络存在丢包的现象,从而精准的定位到了这个问题。
结束语:知识工作自动化领域是一个刚刚兴起的应用领域,其应用范围十分广泛,不仅仅适用于运维自动化,今后在各个生产工作领域,都将会有广泛的应用知识工作自动化系统其实也是二十多年前的专家系统的冷饭重抄,但是大家不要小看了炒冷饭,没有利用大数据技术对80年代的人工智能的炒冷饭,就没有我们现在的AI兴起。
利用大数据、人工智能技术对专家系统的炒冷饭,将会在未来改变人类的生活环境
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186