知识库管理岗(运维知识库管理)快来看
优秀案例之基于分布式服务的运维监控平台
案例背景 01实施背景随着企业信息系统项目的不断建设和应用领域的不断拓展,企业运营对信息系统的依赖性越来越大信息系统的技术复杂度、业务关联性、数据安全性和管理维护难度也不断提升,对IT基础资源与应用业务系统运行可靠性的要求也越来越高,企业的信息化工作逐步从项目建设阶段转向以深入运营、提升应用水平的运行维护阶段。
很多企业运维部门或第三方运维服务商存在以下一点或几点问题:(1)服务对象、服务内容不明确,运维职责不明确(2)运维方内部组织架构、人员责任不明确,无法对人员、资源、技术和过程进行有效的规划管理(3)缺少方便、易用的IT基础资源和应用业务系统的持续监控采集工具。
(4)缺少诊断、分析问题原因的工具或能力(5)工单处理流程不规范,无明确流程、节点、总结回顾等(6)缺少知识库工具或未充分使用,无法有效积累知识,一旦人员调动或离职,易发生知识流失(7)没有与运维工具融合的服务请求管理工具,收到服务请求后需另行登记。
实施目标参考《信息技术服务 运行维护 第1部分:通用要求》(GB/T 28827.1-2012)、《信息技术服务 运行维护 第2部分:交付规范》(GB/T 28827.2-2012)、《信息技术服务 运行维护 第3部分:应急响应规范》(GB/T 28827.3-2012)、《信息技术服务 运行维护服务能力成熟度模型》(ITSS.1-2015),建设基于分布式服务的运维管理平台产品,帮助企业运维部门或第三方运维服务商提高运行维护水平,构建集中式的运维流程综合展示系统,及时、准确、全面反映与掌握信息系统的运行状态,保障各业务系统的正常运行,达成如下目标:
构建主动监控和采集工具,实现集中管理以IT基础资源可用性监控为主线,构建统一集成的IT基础资源及应用业务系统的监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成IT运维管理主动服务的新局面建立故障精准定位、原因快速解答的工具与方法。
建立集中的告警分析及展示平台,提供灵活、自动化的事件处理能力当故障产生时,实现对故障的快速定位,发现故障原因,调度资源快速恢复系统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性掌握运行质量与效率,合理利用资源。
建立运维管理系统,实时了解全部IT基础资源的负载与使用情况,根据需要从整体角度考虑资源使用情况,同时可以根据业务高峰期的不同,调剂业务系统对资源的使用情况建立服务目录,规范运维管理流程,有序开展维护建立服务目录,明确运维对象、服务内容、服务时间等。
对运维管理工作流程进行规范,将管理数据电子化、管理过程规范化根据相关制度进行运行维护管理,对内完善流程,对外提高服务,加强管理,使流程更规范更合理,提高技术人员的工作效率,提高业务技术能力和解决实际问题的能力。
研发工单功能,提供标准流程、可配置化流程根据告警故障、服务请求事件,结合知识库进行初步识别,识别后分配给相关人员进行处理根据事件的严重程度分配给一般运维人员、运维经理等,若一线人员无法处理,进行事件升级,分配给二线人员,若仍无法处理则继续升级,直至分配给产商、开发团队等。
事件处理完成后,需标注事件类型、解决过程、解决方案等,将该事件归纳至知识库建立知识库,积累运维知识,共享运维经验系统将运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制,提供信息共享和交流的平台,提高运维人员的工作效率。
应用过程 02实施方案基于《信息技术服务 运行维护 第1部分:通用要求》(GB/T 28827.1-2012)、《信息技术服务运行维护第2部分:交付规范》(GB/T28827.2-2012)、《信息技术服务 运行维护 第3部分:应急响应规范》(GB/T 28827.3-2012)对管理、人员、过程、技术和资源的要求,根据《信息技术服务 运行维护服务能力成熟度模型》(ITSS.1-2015)对运行维护服务能力成熟度的划分,需按标准要求逐步落实到运维监控平台产品的建设过程中,期望产品能够帮助客户提升运维服务能力。
根据《信息技术服务 运行维护 第1部分:通用要求》(GB/T28827.1-2012)7.2运行维护工具,产品需具备统一监控工具IT基础资源监控应支持监控服务器、网络设备、存储设备、防火墙、负载平衡、数据库、中间件等资源,可以监控采集CPU、内存、磁盘、网络流量等关键指标数据。
应用业务系统监控应支持对传统垂直结构应用、分布式应用、云原生应用等类型应用业务系统进行监控,可以监控采集其运行状态、系统性能、调用拓扑、内部调用链等信息根据《信息技术服务运行维护第1部分:通用要求》(GB/T 28827.1-2012)8.3与发现问题相关的技术,根据监控采集数据,产品需具备问题定位的工具与方法。
当故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性根据《信息技术服务 运行维护 第1部分:通用要求》(GB/T 28827.1-2012)9.4事件管理,产品应具有工单管理功能。
工单模块帮助运维人员按标准化流程处理事件,事件处理完成后可以将其归纳到知识库同时,系统内置标准工单管理流程,也应支持可配置化的流程根据《信息技术服务 运行维护 第1部分:通用要求》(GB/T 28827.1-2012)7.5知识库,产品需具备知识库模块。
知识库模块对新增、审核、发布、应用、考评知识记录等提供基础功能支撑,在提高运维响应速度和质量、实现知识转化等方面可以发挥重要作用实施过程运维业务规划及分析金现代作为行业信息化解决方案服务商,通过市场化手段参与多行业的信息化建设,依托强大的技术和管理能力,发现了企业信息化运维的诸多痛点,我们期望通过运维业务体系的建设帮助企业解决问题。
目前,主要需要在IT基础资源、应用软件等大领域提供高效的运维服务与支持IT基础资源主要包括服务器、网络设备、防火墙、存储设备等硬件,还包括数据库、中间件等基础软件运维体系建设运维保障建设将从组织机构、ITSS核心四要素(人员、资源、技术、过程)等方面总体考虑进行建设。
(1)组织架构建设为了扎实推进运维服务能力的提升,抓住运维业务快速发展的机遇期,更好地支撑运维业务的快速规模发展,巩固和提高专业化能力和技术支撑效率,深化组织创新,并根据运维业务的特点明确组织模式、考核激励机制、内部流程衔接、人员配置等。
为了满足运维业务发展需求,计划年度内加大人员总量投入,对关键岗位加强人才储备,提高岗位胜任力,提升人员质量,优化人才结构,以保障年度运维服务管理目标的实现保障人员培训,按照计划执行,并保证培训质量加强考核,考核内容与运维工作结合,考核要覆盖到每个人员。
(3)人员分析及岗位优化公司有一支较专业的运维建设团队目前运维服务人员总数达15人,人员结构组成中,以负责运维服务与支持的部门经理为首的管理岗人员2人,技术实力较强的技术岗5人,服务台、支持人员、资源建设、备品备件以及负责销售、运营类等操作岗人员8人。
根据公司2021年运维建设及销售规划,计划并已开始投入90万元,将对运维工具完成云原生运维、Al能力建设等,完成运维销售10例综上所述,2021年需新引入2名运维工具开发人员及3名一线运维人员,支持产品建设与销售工作。
(4)招聘与储备计划招聘运维服务人员共计7人其中2人用于补充离职人员,其余5人作为人才储备要求人员招聘计划完成率达到 90% 以上,具体达标率按各部门提交的人员招聘计划计算,每季度考核一次加大内部和外部人才储备,尤其是对工具开发人员和一线人员的储备。
(5)人员培训为保证运维业务建设的有序进行,在运维建设中加强服务标准和服务规范,提升运维人员的技能级别与职业素质制定并已开始实施 2021年度人员培训计划大致计划如下:2021年度公司计划对全体运维体系人员进行IT 运维业务相关培训培训人次为90人次。
主要的培训课程包括:《ITSS标准系列》、运维技术、项目管理、服务流程、工具使用培训等培训资金预算安排:2021年度安排培训资金10万元,其中专项用于运维服务业务的培训资金5万元,主要用于运维人员的外训,提升服务技能。
(6)绩效考核2021年将总结以前年度绩效考核工作经验的基础上,结合2021年的工作目标,继续执行指定的绩效考核制度,并在实践中对绩效考核方法进行优化和完善,建立更加科学的绩效考核评价体系,对员工的工作质量、工作规范要求、学习与成长等进行全方位的定量和定性的考核。
(7)岗位技能考核为不断提升员工的专业技术水平和综合实力,建立有序的职业晋升通道同时,通过岗位技能考核,建立对人员知识、技能与岗位职责的验证机制,以不断提高和发挥人力资源管理效率计划如下:根据岗位设置方案、岗位职责说明书、岗位技能要求等配套管理措施的实际运行情况,建立员工年度技能评估考核机制,并在年底对全员进行技能评估,然后进行技能定级。
根据实际技能考核和定级的情况,结合公司运维业务的发展,适时调整和完善岗位设置或者具体岗位的技能要求资源建设实现服务管理的信息化,规范服务管理流程,提高服务管理的工作效率和服务质量,降低服务成本,提高用户对服务的满意度。
具体目标如下:推动IT运维管理工具的使用推广及持续优化改进,实现运维流程(事件、问题、变更等)的信息化规范管理,做到流程可控、可追溯,关键 KPI 数据可查加强IT 运维管理业务的规范性;完善服务台,并推动服务台职能及标准化操作的推广落地完成备品备件管理的制度化、标准化工作;。
完善运维知识库,并推广在运维服务过程中运用知识库来提升运维服务能力(1)运维工具公司使用各类监控框架作为监控工具,工具专注于各类设备、应用中间件、数据库等为一体的整体监控,并通过智能业务模型解决了用户日益复杂的IT业务资源与运维人数和专业知识结构的矛盾。
系统集拓扑管理、资源管理、网络工具、故障管理等为一体的强大管理功能,准确地反映用户IT系统和IT组织结构的状况,并有效提高业务管理水平、系统可用率、IT部门的服务水平与用户满意度(2)服务台建设为规范的运维服务,需要将服务台和运维管理系统进行整合。
服务台作为统一的接口,负责服务请求的处理和转发:技术上主要是对服务台工作人员进行培训,熟悉服务台职责;管理上主要是制定服务台运维管理制度,明确服务台人员的工作内容与操作规程服务台是用户申报事故以及获得事故处理结论的统一入口,主要工作包括以下几个方面,一是及时响应服务请求,转派给运维工程师;二是发布相关的运维信息,如网络、业务系统、设备故障等;三是协助提高运维团队事故处理质量,增加用户满意度,形成有效的事故处理和跟踪的手段。
(3)知识库目前,知识库在已建立的运维管理系统中,实现知识库与事件、问题、变更、发布等过程管理进行融合贯通通过运维管理系统,对知识条目进行梳理分类,根据知识条目的具体内容和信息安全要求,设置信息安全权限,设定灵活的搜索、查询功能,并日对条目的使用进行实用性评估。
同时,完善知识库管理制度,组织部门员工对沉淀的知识库开展主动学习,并对相关人员进行知识库管理培训要求运维人员将运维项目中遇到的典型故障好重大故障进行经验总结,形成解决方案,最后形成知识,导入到知识库中对条目的审核通过、实用性进行多维度评估。
过程能力建设我们主要按照已经编制的流程,加强执行和落实,同时根据GB/T 28827.1《信息技术服务 运行维护 通用要求》和《运维服务能力成熟度模型》(ITSS.1-2015)里成熟度的细化要求对原有的运维管理过程进行调整和优化改进,提升用户满意度和服务质量。
(1)过程管理1 服务管理模式优化针对目前运维服务业务现状及2021年业务预测,确立以项目为运维服务实施单元,项目经理(项目组组长)牵头,项目成员配合优化单个运维服务项目从项目启动、服务交付、项目验收整个项目周期的各项工作的运作模式。
2 过程管理体系完善依据ITSS相关的要求,结合过程管理体系及2021年运维发展目标,保障运维服务业务的发展,着重于服务交付管理,2021年计划对运维服务过程管理进行优化和改进运维服务项目在进入交付过程前期,结合服务的级别和特点,制定服务指标及服务内容,实施运维服务计划与质量监督计划。
3 具体运维过程的建立和完善工作在建立ITSS体系时,按照标准建立了以下流程:● 服务级别管理:完善服务目录定义完整性,保证SLA达成● 服务报告管理:加强服务报告过程完整性管理,保证服务报告及时性、准确性,形成周报和月报,每周或月向用户提交一次运维服务报告。
● 事件管理:保证事件管理过程完整性、有效性,加强事件解决评估机制有效性,事件解决率达到95%● 问题管理:保证问题管理过程完整性、有效性,提高问题解决评估机制有效性;问题根据重要程度,导入知识库,加强知识管理。
● 变更管理:保证变更的正确实施,降低变更对业务的影响● 发布管理:保证发布的正确实施● 信息安全管理:保证公司信息资产得到保障,防止信息资产泄露和损害● 配置管理:完善配置管理,记录运维服务相关资产。
● 服务报告及时准确提交:根据要求和内容进行提交,并做好提交记录服务质量提升要求各级责任部门应鼓励并督促管理人员、服务人员积极学习ITSS 体系规范,确保各岗位人员能够熟知对应的服务过程要求,了解运维体系规范。
运维相关部门和综合部应相互配合,综合部应按照质量管理计划,内审和管理评审计划安排对应的组织进行检查、考核;运维相关部门应按照质量计划组织相关人员按时参与并配合实施质量考核应用效果 03通过多个客户案例的数据统计得出,平台能够有效提升客户运维服务的质量、降低运维成本。
平台对机房的IT基础资源和应用业务系统监控采集,实现及时告警、故障定位,分析问题原因,通过知识库的建议方案,能够消除故障发现时长、大幅度压缩故障处理时长通过对平台大量数据统计、趋势分析、关键指标阈值的设定,提前进行排障、扩容、限流等应对措施,增加平均无故障时间。
平台对各类事件的流程管理,规范了运维流程,降低了用户投诉率对各类资源负载的分析,实现合理安排资源使用,提高了资源使用率,降低硬件采购成本;对各类资源负载的分析,实现合理安排资源使用,提高了资源使用率;对应用系统的性能分析、瓶颈定位,持续提出了改进建议,使应用性能得到明显提高。
下表为产品某案例的具体提升效果对比:
ITSS标准的应用,使运维产品开发找到了方向产品功能的应用大幅度缩短问题的响应时间,使问题的持续时间缩短,规范了运维部门或第三方独立运维服务商的管理要点、过程管控ITSS标准的应用,为公司打造了一个紧跟技术发展态势、能力强劲的产品研发团队,储备了足够的工具与方案。
挑战及建议04随着应用技术的发展,运维工作也在进行快速变革AlOps已成为事实趋势,但是它并没有最佳实践与标准在将AlOps的理念应用到我们产品中时,可能存在某些功能设计与实际使用有偏差的问题建议ITSS运行维护服务能力成熟度模型标准考察AlOps相关内容,在管理、技术、资源、过程等诸多方面提供标准与要求,指导运维产品的建设与发展。
————END————来源 | 国家信息技术服务标准ITSS(ID: China-ITSS)点这里
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186