首页 / 最佳实践 / AI 革新 IT 服务管理:探索 AIOps 的奥秘

AI 革新 IT 服务管理:探索 AIOps 的奥秘

2023.12.05

在应用程序从单一架构向微服务架构演进的同时,IT 基础设施的规模和复杂性也在日益增加。这给已经负担沉重的 IT 团队带来了日益严峻的管理和维护挑战。长期依赖传统的、手动的 IT 流程可能导致效率低下、创新机会的丧失,以及在安全性和合规性方面存在潜在隐患。然而,如 AIOps (针对 IT 运维的人工智能)等自动化手段,不仅能简化 IT 流程,还能提供更加可靠、安全、高效的管理和维护。

定义 AIOps

AIOps 融合了人工智能(AI)和机器学习(ML),自动完成许多原本需要 IT 团队手动处理的检测和维护任务。AIOps 不仅简化了 IT 运维流程,还显著提升了工作效率。它使 IT 团队能够主动从多个数据源中分析数据,迅速锁定需要关注的环境区域,并准确快速地洞察问题,实现有效解决。借助 AIOps,IT 专业人员可以把更多时间投入到战略性、价值更高的项目中。

推动 AIOps 发展的关键因素

对于面临以下情况的组织而言,AIOps 是一项极具价值的解决方案:

环境复杂度增加:当组织从单体架构转向基于微服务的服务架构,并同时采纳云原生原则时,他们的技术堆栈变得复杂,对于依然依赖手动流程的 IT 团队而言,监控和追踪这些变化将是一个巨大的挑战。

需求持续可用性和实时监控:那些希望确保其服务具备可靠性、响应性和可扩展性的组织将从 AI 中受益匪浅。AI 不仅提供卓越的用户体验,还帮助组织高效履行其服务级别协议(SLA),同时及时解决问题。

数据量大幅增长:在基于微服务的架构中,对可用性和监控的需求不断增加,从而带来数据量的激增。AI 赋予运维和IT 团队分析大量数据并做出明智决策的能力,特别是在异常检测和聚类技术方面。

追求更佳的客户体验:AI 能够帮助组织更快地解决问题,同时将对用户的影响降至最低,确保流畅和无缝的用户体验。

成本效益:通过优化资源分配并减少额外人力需求,AIOps 能显著降低成本。人工智能的应用能有效预防或减轻系统停机时间,实现日常任务的自动化,优化容量规划,并根据需要自动调整基础设施规模。

AIOps 组件

AIOps 平台的核心组件通常概括为三个环节:观察、参与、行动。这一“观察-参与-行动”框架为 IT 服务管理团队提供了一种简洁有效的方法,以提升其运维效率。

观察环节

IT 团队可以利用 AIOps 从组织的 IT 环境中收集并分析大量数据。这些数据源可能包括服务器、应用程序、网络设备等产生的日志、指标、事件和其他遥测数据。

参与环节

AIOps 能够整合来自不同来源的数据,全面解析事件及其可能对组织造成的影响。

智能警报和通知系统是这一环节的关键组成部分。它们确保 IT 团队能通过集成现代事件管理功能的 IT 服务管理解决方案,及时获悉需关注的紧急问题。AIOps 平台可以通过工作流自动化,将事件有效地分派至相应团队或系统处理,并跟踪其处理进度。

行动环节

AIOps 平台根据观察和参与阶段的分析洞察,执行自动化或半自动化的操作。这包括自动化的问题修复,其中 AIOps 可以启动预设脚本或操作,以解决常见问题,无需人工干预。

AIOps 的终极目标是加快事件响应速度,缩短平均解决时间(MTTR),并从根本上提升 IT 运维的效率。

AIOps:一站式解决方案

组织引入 AIOps 后,将获得一个涵盖观察、参与、行动三个环节的一站式解决方案。

可观测性(观察环节)

利用 AIOps,IT 团队能够利用监督式及非监督式机器学习技术,处理包括日志、追踪、事件和度量在内的各种数据,这不仅适用于整个企业,也适用于组织内部的运营管理。

为了加速问题调查和数据关联,团队可将日志集中存储于一个中央位置。

纳入 AIOps 平台的日志数据类型包括:

应用程序性能监控(APM):通过实施 APM,可深入了解应用程序的性能、依赖关系及代码优化情况,并快速定位问题根源。

基础设施监控:包括云平台在内,实施基础设施监控,以便收集日志、指标和其他重要数据,从而加快故障排查过程。最理想的工具是那些预设了用于异常检测的机器学习规则的工具。通过将应用程序和基础设施数据关联起来,打破数据孤岛,提高根本原因检测的效率。

日志监控:采用集中式日志记录,将应用程序与基础设施日志统一。采用算法从结构化或非结构化数据中提取洞见,并识别常见的模式与趋势。对每条日志信息实施开箱即用的机器学习技术,以便快速进行检测和相关性分析。

真实用户监控:实施真实用户监控,收集和分析性能数据,包括 URL、操作系统、浏览器和地理位置,从而深入理解应用性能及其基础设施。

将可观察性警报推送到 ITSM 解决方案,实现主动式事件管理,避免任何服务中断。

eda37e35-a4b2-4852-abcc-513fd0304802.png

IT 服务管理(参与环节)

IT 服务管理,即参与环节,是 AIOps 解决方案中协调组织事件管理流程的关键。这一环节确保正确的团队得到及时警告,并提供他们可操作的信息,高效引导他们完成解决流程。

Jira Service Management 是建立现代化事件管理流程的有效途径。

如何运用 Jira Service Management 构建现代化的事件管理流程:

模式与趋势警报:AIOps 平台持续监控数据,以侦测模式和趋势。一旦发现异常或问题,就会根据这些模式和趋势产生警报。

警报通知:Jira Service Management 会根据服务、平台及警报的严重程度,向待命团队发送通知。这些通知通过各种渠道传递,包括移动应用推送、电子邮件、电话、短信等,确保相关人员能够迅速得到通知,从而提升响应速度。 

自动化应对计划:ITSM 平台会自动为待命团队制定应对计划,这些计划基于事件本质、影响的服务以及历史上类似事件的发生情况。这有助于团队迅速做出明智的决定。通过自动化,可以将性质相似的开放事件与一个主要的父事件关联,有效降低管理成本。 

服务依赖图谱:作为 Jira Service Management 原生资产与配置管理工具的“资产”,提供了服务依赖关系的视觉展现,并提供关键事件细节,帮助团队理解情况背景及其对更广泛 IT 环境的可能影响。

协作与集群式处理:集群式处理是指聚集来自不同领域的专家(SMEs),共同高效解决问题。Jira Service Management 通过与 Microsoft Teams 和 Slack 等平台的集成,为团队提供了高效的集群式协作方式。此外,IT 团队还可以利用内置的视频会议功能或使用 Zoom 进一步促进团队合作。

运行手册:IT 团队配备了详尽的运行手册,这些手册详细阐述了针对特定事件源参数和预期结果采取的具体措施。这确保了事件解决过程的系统性和规范性。这些运行手册和其他文档可以在 Confluence 的知识库中创建和维护,并通过其与 Confluence 的原生集成与 Jira Service Management 无缝对接。

变更记录:如有必要,团队可在 Jira Service Management 中自动发起变更请求,并据此触发针对受影响服务的必要审批流程。这样不仅便于监控和控制对事件解决至关重要的变更,还能确保符合治理、风险和合规标准。

自动修复:当满足预设条件,且事件可在无需人工干预的情况下解决时,Jira Service Management 可以触发平台内的自动修复动作。这包括通过内置自动化功能或与外部系统集成,实现跨平台的修复操作。

知识库和运行手册:团队可在 Confluence 中创建和更新知识库文章和运行手册,有助于记录和传承机构的知识及最佳实践。当执行某一方案时,平台将为团队提供详细的逐步执行指导,包括一系列预定的步骤和操作。

自动化运行手册的开发:在没有现成合适的运行手册的情况下,AIOps 平台可以启动一个任务,指导团队开发一个自动化运行手册,以应对未来可能发生的类似事件。这种做法有助于持续改进和优化流程。

自动化(执行环节)

自动化或执行环节是 AIOps 解决方案的重要组成部分,它专注于自动化操作以解决问题、增强系统稳定性并优化 IT 运营。在这一阶段,通过预设条件和触发器来自动执行特定任务,从而减少人工干预的需求,并加快事件的解决速度。

参见常见的自动化任务:

重启服务:在服务或应用程序无响应或出现问题时,系统会自动重启服务或应用程序。这种自动化处理有助于快速恢复服务的可用性,无需人工介入。

为释放虚拟机空间清理日志:日志文件的不断积累可能会占用虚拟机(VM)的磁盘空间。通过自动化移除过时或不必要的日志条目,日志清理过程能够有效确保充足的存储容量。

基于流量自动调整基础设施资源:AIOps 能够监控流量模式,预测需求高峰时刻。当系统侦测到流量即将激增时,它会自动增加基础设施资源,例如 CPU 和 RAM,以应对增加的负载。

反之,当流量减少且资源不再需要维持在高峰水平时,系统可以自动缩减基础设施资源,以此优化成本和资源的使用效率。

基于安全警报或异常行为隔离端点:在检测到安全警报或异常行为时,系统可以自动采取措施隔离受影响的端点或设备。这可能包括暂时切断其网络连接,防止进一步损害或入侵,直至问题得到解决。

灾难恢复措施:当检测到由于某些事件导致的组件故障时,系统可以自动启动灾难恢复站点,无需重大中断即可恢复服务。

在某些情况下,自动化过程可能需要经过审批。ITSM 能够根据既定条件,自动从 IT 团队或业务利益相关方获取必要的审批。

fd73c058-2aa8-437b-9dd7-2284ff943989.png

推荐遵循的最佳实践

要成功实施 AIOps,需要精心规划并遵循最佳实践。我们的建议包括:

评估当前状况:首先对现有的 IT 基础设施、工具及流程进行全面评估。全面了解您的 IT 运维现状,包括监控和事件管理。这一基础评估将帮助您识别哪些领域能从 AIOps 中获益,并为后续改进提供明确的出发点。

明确未来目标:清楚地设定您的 AIOps 实施目标。确定您期望实现的具体目标,如缩短平均故障处理时间(MTTR)、提高系统可用性或自动化日常任务。这些目标将成为您部署 AIOps 的指引,并助您评估其实施效果。

精选合适工具:选择与组织特定需求和目标相符的 AIOps 工具及解决方案。应考虑因素包括可扩展性、集成能力、使用便捷性,以及分析并关联来自日志、指标和事件等多种来源数据的能力。

安全控制措施:在将 AIOps 与其他系统集成时,尤其是在数据收集和通信方面,应将必要 IP 地址列入白名单,以提高安全性。这有助于阻止未授权访问,并确保仅有可信来源能与您的 AIOps 平台交互。若您为本地可视化环境实施 AIOps,应优先考虑实施加密和访问控制措施,以保护您的数据和系统。

持续改进机制:AIOps 不是一劳永逸的实施,它需要持续的维护和改进。不断监控 AIOps 平台的性能,并根据反馈以及 IT 需求的变化调整算法和流程。这种循环迭代的方式确保 AIOps 长期有效。

治理与内部审查:建立治理机制,并定期进行内部审查,评估 AIOps 实施的有效性。确保 AIOps 项目与整体 IT 战略和业务目标保持一致。定期与相关方沟通,并征求他们的反馈,以便进行改进。

AIOps 提供的好处包括改进 IT 运维、提升效率、节约成本和优化整体业务成果。通过对 IT 基础设施、应用程序和服务的实时监控与分析,AIOps 使组织得以在问题影响终端用户前识别并处理这些问题。通过分析历史数据和趋势,AIOps 甚至能够主动检测和解决问题,确保终端用户体验的连贯性。AIOps 的预测性分析对长远规划大有裨益,帮助组织在基础设施投资和升级方面做出明智的决策。

Pill BG.png

立即登陆 Atlassian 中国官网

手机扫码{{currentOpt}}

点击切换登录
手机号码
验证码
打开微信扫一扫
使用二维码{{currentOpt}},更安全

扫码分享给好友

立即注册 Atlassian 中国官网

* 姓名
* 公司名称
* 职位
* 企业邮箱
* 手机号码
* 短信验证码
* 公司规模
在线咨询 联系我们

在线咨询

您好,欢迎使用 Atlassian 售前咨询,请选择所需咨询的问题类型: