案例解读| 从集中告警平台发展趋势看城商行如何落地数字化转型(二)

news2025/7/13 12:03:15

上期我们以具体案例入手,分享了集中告警平台到底应该与集中监控平台解耦还是紧绑定等问题。这一期依旧从具体案例切入,跟大家一起探索下告警与服务台的对接过程,以及这个过程中可能产生的问题。

上期内容,一键回顾不迷路→案例解读| 从集中告警平台发展趋势看城商行如何落地数字化转型(一)

一、案例背景

某股份制城市商业银行数据中心,在英国《银行家》杂志发布的“全球银行1000强”排名中,按一级资本排名前100名。

为更好地完成企业数字化转型,深耕数字化、智慧化变革,进一步提升告警管理及治理的能力,以统一的业务视角来观测分析,建设智能集中告警平台,基于自动开单策略配置、机器学习能力、关联流程信息及配置数据,期望目标完成数据中心告警的自动开单。

二、项目现状

数据中心在现有管理体制下,告警的诸多问题在沟通时经常被提到。

  • 现状扫描

实际生产中,告警数据源10+套;

每日告警量5000+;

每日开单量500+;

目前对于告警的开单是基于人工的判断,开单效率较低,并伴随有一定的延迟性。

三、项目优化目标

是希望在行内原有系统的基础上,借助智能化的注入,将原有手工操作的繁琐工作,逐步替换成系统自动完成的工作,以提高生产效率。

四、项目实施流程概要

五、项目重点实战——告警服务台联动

(1)日常挑战

1.告警实时关注:当告警产生时,ECC监控人员作为第一处理人接收,面临着诸多 挑战

2.值守挑战

根据该告警的描述信息,手动向工单系统发起开单,并指派给相应的值班人员进行后续处理。

监控人员必须24小时不间断的盯着屏幕,告警产生后就按SLA响应,并判断是否需要向服务台开相关的事件单。

(2)开单经验主义

1.开单挑战:

每天的告警量在5000+

所有监控人员(6人),大约每天平均需要处理200+条/小时的告警。

根据告警等级,是否会自动恢复等条件,人为判断告警是否要开单,最终导致告警开单延迟、漏开单,实际有效开单率为10%

(3)通知遗漏

1.漏单挑战:

对于一些较为严重的告警,还需要立即打电话告知相关人员及时处理。

由于告警量大,人工操作难免会有操作不当或告警遗漏开单的情况,对于这类数据无法追踪。

行方希望逐渐优化改善这一状况,利用自动化的方式选择性替换原有的手工模式,引进擎创告警辨析中心来构建平台优化和改造。

(4)实战解析

1.告警实时关注:通过擎创的告警辨析中心构建多维度,多层次的保障来完成复杂多变的自动开单模型,部分模型大致包括以下几种

  • 灵活压缩模型:灵活多源压缩策略,将数据质量高的告警和数据质量低的 告警分而治之,对质量稍差,字段缺失的告警用相似算法进行有效压缩,进一 步减少后续告警的开单量。

  • 自动归属模型:部分告警根据历史告警参考和数据源管理组织架构进行自动归属分派。

  • 同源合并模型:压缩后的同源性质告警,在同时段触发的,会进行同源合并开单,进一步减少告警的开单量。

  • 关联升级模型:告警业务属性关联或告警复合可能性产生共振的,会触发关联升级模型构建更加有针对性的自动开单。

2.双向自动闭环

在对接了用户的工单系统后,告警辨析中心将告警基于行方的实际需要配置,自动向工单系统提交工单,实现了告警的自动开单。

行方运维人员在工单系统对告警进行处置并关闭后,告警辨析中心会同步工单系统关联告警状态实现同步更新,完成告警处置的整个闭环。

3.可审计可追溯

告警辨析中心基于引擎的所有开单都会生成相应记录,方便行方后续跟踪、报表统计与复盘分析。

4.增强实时通知

从人工外呼通知,强化为可定义的自动外呼,大幅提高了时效。

增加可定义的短信通知方式,实现了告警通知的多渠道全自动处理流程。

六、案例阶段成果

通过新告警平台的建设,预先对告警进行数据的标准化,进而通过压缩对告警进一步降噪,再通过自动化引擎将指定的告警向ITSM系统自动开单,基本达到了开单自动化的预期目标。

  • 预投产+运行数月后的数据

1.预投产:

每日接入原始告警5000+,压缩后的每日告警1800+,每日自动开单量900+

基于告警开单尽可能不漏的基础上配置的相应策略的原则下,虽然告警的每日开单量从500+(手工)上升到了900+(自动),开单已不需要人工处理,做到了自动化流转。

2.优化阶段:

运行2周-1月时间以及通过对开单策略的调整后,每日开单量又进一步降低到300+,与原来手工开单的500+相比,开单量降低了将近40%

现阶段自动开单率已经达到95%(除了少量告警仍需要人工干预),原先6人的监控工作量被释放,使得运维人员可以更加关注问题的处置和复盘。

七、案例总结

告警平台的复杂度是非常高,因此真正要做到100%自动化开单确实有相当的路要走,项目实际迄今也只能完成95%左右的自动化开单。但项目中采用了从前置压缩到后置关联,从单维度到多层次,结合组织架构和处置归属进行了模型化的尝试,对于告警服务台自动化联动的探索还是有相当的参考意义。


擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

更多运维思路与案例持续更新中,敬请期待

随手点关注,更新不迷路~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/396044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

17万字 JUC 看这一篇就够了(二) (精华)

今天我们继续来学习并发编程 17万字 JUC 看这一篇就够了(一) (精华) 线程池 基本概述 线程池:一个容纳多个线程的容器,容器中的线程可以重复使用,省去了频繁创建和销毁线程对象的操作 线程池作用: 降低资源消耗,减…

网络工程师面试题(面试必看)(1)

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 一.正题 1.TCP UDP协议的区别

YARN基本架构

主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,如图所YA示。 ResourceManager(RM) RM是全局资源管理器,负责整个系统的资源管理和分配 主要由两个组件构成:Scheduler调度器和应用程序…

ZYNQ嵌入式学习(5)

UARTUART简介发送FIFO接收FIFO模式切换寄存器操作中断和状态寄存器发送数据轮询中断接收数据轮询中断实验:串口中断数据环回UART简介 不需要了解时序。 UART是全双工异步收发的,没有时钟。 UART的操作通过配置和模式寄存器控制。 UART由独立的接受和发送…

Vue计算属性Computed

30. Vue计算属性Computed 1. 定义 Computed属性是Vue中的一个计算属性,是一种基于其它属性值计算而来的属性值,具有缓存机制,在依赖的属性值发生变化时会重新计算。 使用computed属性可以避免在模板中书写过多的计算逻辑,提高代…

【敏捷开发】jenkins「CI持续集成 CD持续部署」- 部署vue和go项目 - 待定

文章目录前言一、安装jenkins1. 部署中的痛点2. 什么是jenkins3. jenkins的安装和配置(1)下载(2)安装二、上传到运行服务器1. jenkins构建服务器流程2. 安装jenkins常用插件3. 通过freestyle构建项目4. 将构建服务器上的代码上传到…

Mybatis工程升级到FlunetMybatis后引发的问题以及解决方法

0. 背景交代为了提高开发速度,我打算将公司原有Mybatis框架升级为FlunetMybatis。可是遇到了一系列问题,下面开始爬坑工程结构示意如下:src/ ├── main │ ├── java.com.demo │ │ ├── Application.java //S…

常见数据模型

目录 1.1两类数据模型 1.2概念模型 1.3数据模型的组成要素 1.4常见数据模型 层次模型 网状模型 关系模型 数据模型是对现实世界数据特征的抽象,也就是说数据模型是用来描述数据、组织数据和对数据进行操作的。数据模型是数据库系统的核心和基础。 1.1两类数…

ip地址的分类及地址范围

IP地址根据网络ID的不同分为5种类型,A类地址、B类地址、C类地址、D类地址和E类地址。1、A类IP地址一个A类IP地址是指, 在IP地址的四段号码中,第一段号码为网络号码,剩下的三段号码为本地计算机的号码。A类IP地址中网络的标识长度为…

一种用于智能建筑云辅助检测的快速传感器放置位置优化方法

随着健康意识的觉醒,人们对居住的建筑提出了一系列与健康相关的要求,以期改善居住条件。在此背景下,BIM(Building Information Modeling)充分利用健康、环境、信息技术等诸多领域的前沿理论和技术,为工程师…

低代码开发的优势是什么?

低代码开发的优势是什么?低代码开发这个概念这两年来经常出现在人们的视野中,市场对于低代码的需求也越来越庞大。 Gartner预测,到2025年,75%的大型企业将使用至少四种低代码/无代码开发工具,用于IT应用开发和公民开发计划。 可…

Java面试题--Spring事务失效

Spring事务失效概述 Spring对事务的管理和处理,是基于AOP和编程范式的。因此Spring事务失效的场景较为丰富,包括但不限于以下常见情况: 异常被吞掉:当事务管理中出现异常但没有被正确捕捉并处理时,事务就会失效。例如…

Sedona 简介

Sedona 可以做什么? 分布式空间数据集 Spatial RDD on SparkSpatial DataFrame/SQL on SparkSpatial DataStream on FlinkSpatial Table/SQL on Flink 处理复杂的空间类型 Vector geometries / trajectoriesRaster images with Map AlgebraVarious input formats: CSV, TSV…

Vue 项目如何迁移小程序

最近我们看到有开发者在社群里提出新的疑惑「我手头已经有一个成熟的 HTML5 项目了,这种项目可以转为小程序在 FinClip 环境中运行吗?」。 经过工作人员的沟通了解,开发者其实是想将已有的 Vue 项目转为小程序,在集成了 FinClip …

(蓝桥真题)扫描游戏(计算几何+线段树二分)

题目链接:P8777 [蓝桥杯 2022 省 A] 扫描游戏 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 样例输入: 5 2 0 1 1 0 3 2 4 3 5 6 8 1 -51 -33 2 样例输出: 1 1 3 4 -1 分析:先考虑如何对物件进行排序,首先&…

【PSO-PID】使用粒子群算法整定PID参数控制起动机入口压力值

最近在学优化算法,接触到了经典寻优算法之粒子群PSO,然后就想使用PSO算法来调节PID参数,在试验成功之后将此控制算法应用到了空气起动系统上,同时与之前的控制器进行对比看看哪种控制效果最好。 0 引言 PID参数整定主要有两种&…

谁说程序员不懂了浪费,女神节安排

Python的PyQt框架的使用一、前言二、女神节文案三、浪漫的代码四、官宣文案一、前言 个人主页: ζ小菜鸡大家好,我是ζ小菜鸡,特在这个特殊的日子献上此文,希望小伙伴们能讨自己的女神欢心。 二、女神节文案 1.生活一半是柴米油盐&#xff0c…

优化设计流程的“闭环”问题

7.优化设计流程的“闭环”问题 交互设计师有一项很重要的工作就是定义任务流程。在接到需求之后,设计师需要把抽象的需求设计成具象的流程,然后再把流程分配到不同的界面,最终形成成品。设计流程不难,但是设计好的流程非常难&…

VisualStudio2022制作多项目模板及Vsix插件

一、安装工作负载 在vs2022上安装“visual studio扩展开发 ”工作负载 二、制作多项目模板 导出项目模板这个我就不再多说了(项目→导出模板→选择项目模板,选择要导出的项目→填写模板信息→完成)。 1.准备模板文件 将解决方案中的多个…

SpringBoot整合ElasticSearch实现模糊查询,排序,分页,高亮

目录 前言 1.框架集成-SpringData-整体介绍 1.1Spring Data Elasticsearch 介绍 2.框架集成Spring Data Elasticsearch 2.1版本说明 2.2.idea创建一个springboot项目 2.3.导入依懒 2.3.增加配置文件 2.4Spring Boot 主程序。 2.5.数据实体类 2.6.配置类 2.7.DAO 数据…