prometheus + alterManager + 飞书通知,实现服务宕机监控告警;实测可用

news2025/7/16 15:29:22

架构设计图

在这里插入图片描述
最终效果图

在这里插入图片描述
在这里插入图片描述

项目准备

xml依赖

        <!-- 监控相关 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-actuator</artifactId>
        </dependency>
        <dependency>
            <groupId>io.micrometer</groupId>
            <artifactId>micrometer-registry-prometheus</artifactId>
            <scope>runtime</scope>
        </dependency>

yml配置

management:
  endpoints:
    web:
      exposure:
        # 暴露相关项目信息
				# include: "*"  # 暴露全部端点
        include: "prometheus" # 只暴露/actuator/prometheus
  endpoint:
    prometheus:
      enabled: true
    health:
      show-details: always
  metrics:
    export:
      prometheus:
        enabled: true

附:springBoot相关endpoint参数

HTTP方法路径描述默认是否启用
GET/health返回聚合的应用健康状态,可能的话,还会包含外部依赖应用的健康状态
GET/heapdump下载堆dump文件
GET/info返回有关开发人员定义的关于该应用的信息
GET/loggers生成应用中源码的包列表,其中会包含配置的以及生效的日志级别
GET/metrics返回所有jvm指标分类的列表
GET/auditevents生成所有已经触发的审计的报告
GET/beans描述Spring应用程序上下文中的所有bean
GET/conditions生成自动配置条件通过或者失败的报告,会指导应用上下文中bean的创建
GET/configprops描述所有配置属性以及当前值
GET, POST, DELETE/env生成Spring应用可用的所有属性源及其属性的报告
GET/env/{toMatch}描述某个环境属性的值
GET/httptrace生成最近100个请求的跟踪结果
GET, POST/loggers/{name}返回指定logger配置的和生效的日志级别,生效的日志级别可以使用POST请求修改
GET/mappings生成所有HTTP映射及其对应处理器方法的报告
GET/metrics/{name}返回给定指标的多纬度值集
GET/scheduledtasks列出所有的调度任务
GET/threaddump返回所有应用线程的报告

其他

    /**
     * 为普罗米修斯添加应用名称 tag,在界面上好区分
     *
     * @param applicationName   应用名称
     * @return org.springframework.boot.actuate.autoconfigure.metrics.MeterRegistryCustomizer
     */
    @Bean
    public MeterRegistryCustomizer<MeterRegistry> meterRegistryCustomizer(@Value("${spring.application.name}") String applicationName) {
        return (registry -> registry.config().commonTags("application", applicationName));
    }

验证

验证项目是否准备完毕,项目启动后,访问:http://ip:port/actuator/prometheus

在这里插入图片描述

docker安装组件

飞书配置

获取飞书token

  1. 创建一个飞书群聊,在 设置 中选择群机器人 --> 选择 添加机器人。

在这里插入图片描述

  1. 选择自定义机器人

在这里插入图片描述

  1. 选择添加后,url后面就是 飞书的oken,在prometheus的配置中需要用到。
  2. 在安全设置中勾选 自定义关键词,在发送的消息中存在 配置的关键词才能够正常发送。

在这里插入图片描述

安装发送消息到群的组件

我这里是在 docker hub 上找的一个发送飞书消息的镜像,里面跑的是一个 SpringBoot 项目,如果有找到更好的,可以进行更换。

docker run -d --name prom-alert-feishu -p 9094:8080 javafamily/prometheus-webhook-feishu:2.3.2-SNAPSHOT

prometheus安装

创建目录: /xxx/xxx/prometheus/并进入,创建prometheus.yml配置文件,内容如下:

global:
  scrape_interval:     30s # 全局抓取数据时间,默认 60s,可在job中覆盖
  evaluation_interval: 30s # 全局告警计算周期,默认 60s,可在job中覆盖

# alert Manager配置
alerting:
  alertmanagers:
    - static_configs:
      - targets:
        - 192.168.1.222:9093

# rule规则配置
rule_files:
  - 'rules/*.yml'
  
# 监控job配置
scrape_configs:

  # prometheus自带默认 job,不可删除
  - job_name: 'prometheus'
    metrics_path: '/metrics'
    static_configs:
      - targets: ['192.168.1.222:9090'] # 抓取数据url,确保在容器中能够访问到,使用docker启动不能写localhost

  # 服务实例 job,可配置多个
  - job_name: 'springboot_wcong_test'
    scrape_interval: 15s # 每间隔15s向指定url进行抓取数据,覆盖global中的配置
    metrics_path: '/actuator/prometheus' # 应用程序暴露的端点
    static_configs:
      - targets: ['192.168.1.222:9010'] 
        labels:
          serviceId: 'springboot_wcong_test_one'
          serviceName: '测试boot应用1'
          feishuToken: 'xxxx'
          
  - job_name: 'springboot_wcong_test_two'
    scrape_interval: 15s
    metrics_path: '/actuator/prometheus'
    static_configs:
      - targets: ['192.168.1.222:9020']
        labels:
          serviceId: 'springboot_wcong_test_two'
          serviceName: '测试boot应用2'
          feishuToken: 'xxxx'
          

/xxx/xxx/prometheus/,创建 rules文件夹,进入 rules 文件夹,创建dufault_rule.yml文件,内容如下:


# 每个group可以定义多个告警规则(rule)
groups:

  # 组名, 报警规则组名称,可配置多个
- name: 实例存活报警name
  rules:
  - alert: 实例存活报警alert
    # PromQL表达式,相关参数可在prometheus界面中查看
    expr: up == 0
    # 报警持续时长 达到 这个时间,才会触发报警, for >= prometheus中的scrape_interval值(每次抓取数据的时间,防止最新的数据还没抓取)
    for: 30s

    # 自定义标签,允许用户指定要附加到告警上的一组附加标签。
    labels:
      # 指定告警级别。:warning,critical,emergency,严重等级依次递增。
      severity: emergency

    # 定义消息 内容 和 格式,相关参数根据具体的 webhook 而定。
    annotations:
    # 推送feishu机器人token,不同的组,可推送到不同群
      token: "{{ $labels.feishuToken }}"
      title: "服务宕机报警"
      serviceName: "{{ $labels.serviceName }}"
      instance: "{{ $labels.instance }}"
      # 按钮标题
      btn: "点击查看详情 :玫瑰:"
      # 点击按钮跳转的链接
      link: 'http://192.168.1.222:9090/targets'
      template: '服务 **${serviceName}**(${instance}) 断联, 请及时处理!'
      description: '服务宕机'

/xxx/xxx/prometheus/目录,创建docker容器文件:docker-compose.yml,内容如下:


# 启动命令:docker-compose up -d

version: '3.7'
services:
   prometheus:
      image: prom/prometheus:latest
      container_name: prometheus
      # 重启策略,失败后重启一次
      restart: on-failure:1
      ports:
         - "9090:9090"
      volumes:
         # 配置文件,挂载到本机目录
         - /xxx/xxx/prometheus/:/etc/prometheus/
      # 限制最大使用内存
      deploy:
         resources:
            limits:
               memory: 512M

进入docker-compose.yml所在目录,启动:docker-compose up -d(-d 后台启动)

验证

访问地址:ip:9090

在这里插入图片描述

AlterManager安装

创建目录: /xxx/xxx/alertManager/并进入,创建altermanager.yml配置文件,内容如下:

# 相关路由规则
route:
  group_by: [...] # 分组, ... 表示不分组
  group_wait: 60s # 同一组 告警 需要等待多少s才能发出
  group_interval: 5m # 同一组的多批次告警间隔多少秒后,才能发出
  repeat_interval: 1h  # 重复告警要等待多久后才能再次发出去,目的是为了避免重复的消息发送多次
  receiver: 'web.hook' # receiver名称,对应 receivers.name

# 配置报警方式
receivers:
  - name: 'web.hook'
    webhook_configs:
      # 通知url
      - url: 'http://192.168.1.222:9094/alert/card'

# 抑制规则,减少垃圾告警的产生,比如主机挂了,主机上的服务,数据库,中间件等一系列告警 相对来说没有意义,可以通过抑制项这个功能,让Prometheus只发出主机挂了的告警。
# 暂时不用
# inhibit_rules:
#   - source_match:
#       # 匹配的严重级别,向上兼容,warning,critical,emergency,严重等级依次递增。
#       severity: 'critical'
#     target_match:
#       severity: 'warning'
#     equal: ['alertname', 'dev', 'instance'] # 确保这个配置下的标签内容相同才会抑制,也就是说警报中必须有这三个标签值才会被抑制。

进入目录:/xxx/xxx/alterManager/并进入,创建docker容器文件:docker-compose.yml,内容如下:


# 启动命令:docker-compose up -d

version: '3.7'
services:
   prometheus:
      image: prom/alertmanager:latest
      container_name: alertmanager
      # 重启策略,失败重启一次
      restart: on-failure:1
      ports:
         - "9093:9093"
      volumes:
         - /xxx/xxx/alertManager/:/etc/alertmanager/
      # 限制最大使用内存
      deploy:
         resources:
            limits:
               memory: 256M

进入docker-compose.yml所在目录,启动:docker-compose up -d(-d 后台启动)

grafana安装

创建目录:/xxx/xxx/grafana/并进入,创建docker容器文件:docker-compose.yml,内容如下:

# 启动命令:docker-compose up -d
version: '3.7'
services:
   prometheus:
      image: grafana/grafana:latest
      container_name: grafana
      # 重启策略,失败重启一次
      restart: on-failure:1
      ports:
         - "3000:3000"
      # 不需要挂载容器卷,grafana只是一个数据展示平台
      # volumes:
         # - /xxx/xxx/grafana/:/etc/grafana/
      # 限制最大使用内存
      deploy:
         resources:
            limits:
               memory: 256M

进入当前目录,启动:docker-compose up -d(-d 后台启动)

验证

访问地址:ip:3030,默认账号密码都为admin

Grafana相关配置

jvm监控

  1. 配置数据源,点击Add data source,选择 prometheus。

在这里插入图片描述

  1. 配置名称url

在这里插入图片描述

  1. 点击:Save & test,添加数据源

在这里插入图片描述

  1. 导入官方提供的图像可视化插件,jvm的编号为:4701,加载后进行导入;其他仪表盘:https://grafana.com/grafana/dashboards/

在这里插入图片描述

  1. 选择刚才添加的数据源

在这里插入图片描述

  1. 一个仪表盘可以展示 多个jvm应用的信息,可以根据 应用名称标签名进行筛选,可以选择 查看的信息时间段刷新频率

在这里插入图片描述

  1. 后续查看

在这里插入图片描述

用户权限控制

用户-角色-组织

编辑界面

  • 数据源、图表按组织隔离。
  • 可以根据组织配置免密登录。

在这里插入图片描述

用户角色修改角色
在这里插入图片描述

每个图表的控制

  • 控制某个图表为只读,防止误操作。
  • 还可以根据角色区分操作权限。
  • 保存后,刷新页面才会生效。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/369918.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Elasticsearch7.8.0版本进阶——段合并

目录一、段的概述1.1、段的概念1.2、段的缺点1.3、如何解决段数量暴增问题二、段合并的流程三、段合并的注意事项一、段的概述 1.1、段的概念 每一 段 本身都是一个倒排索引。 1.2、段的缺点 由于自动刷新流程每秒会创建一个新的段 &#xff0c;这样会导致短时间内的段数量…

interrupt多线程设计模式

1. 两阶段终止-interrupt Two Phase Termination 在一个线程T1中如何“优雅”终止线程T2&#xff1f;这里的【优雅】指的是给T2一个料理后事的机会。 错误思路 ● 使用线程对象的stop()方法停止线程&#xff08;强制杀死&#xff09; —— stop&#xff08;&#xff09;方法…

Linux内核的虚拟内存(MMU、页表结构)

前言&#xff1a;内存是程序得以运行的重要物质基础。如何在有限的内存空间运行较大的应用程序&#xff0c;曾是困扰人们的一个难题。为解决这个问题&#xff0c;人们设计了许多的方案&#xff0c;其中最成功的当属虚拟内存技术。Linux作为一个以通用为目的的现代大型操作系统&…

【git】Idea中git的使用

配置git 创建git仓库 不同颜色代表的含义 红色——未加入版本控制&#xff1b;绿色——已经加入控制暂未提交&#xff1b;蓝色——加入&#xff0c;已提交&#xff0c;有改动&#xff1b;白色——加入&#xff0c;已提交&#xff0c;无改动&#xff1b;灰色——版本控制已忽略文…

8、STM32 FSMC驱动LCD(ILI93xx)

本文使用FSMC驱动LCD显示&#xff0c;关于建议先看之前的7、STM32 FSMC驱动SRAM一文 硬件连接&#xff1a; 一、CubeMx配置FSMC驱动LCD ILI93xx 此章只为快速使用LCD&#xff0c;不涉及原理、指令说明 显示屏驱动文件参考正点探索者 1、CubeMx图形配置 此处的时序还可以调…

GLOG如何清理日志

1 日志清理 其实GLOG很长时间以来都没有日志清理功能。小白对此也很震惊&#xff0c;还特意去查了GLOG的提交记录。代码的提交记录显示&#xff0c;GLOG与日志清理有关的最初代码是2019年11月1日&#xff0c;而这个开源项目的起始时间可以追溯到2008年。也就是说&#xff0c;在…

浅谈liunx init.d 和 rc.local 两种起动方式

浅谈liunx init.d 和 rc.local 两种起动方式 以rabbitmq 举例 &#xff08;一&#xff09;.init.d 方式 开机自动重启设置 1.在/etc/init.d 目录下新建一个 rabbitmq [rootlocalhost init.d]# vi rabbitmq具体脚本如下所示&#xff1a; #!/bin/bash # # chkconfig: 2345 …

【离线数仓-7-数据仓库开发DIM层设计要点-拉链表同步装载脚本】

离线数仓-7-数据仓库开发DIM层设计要点-拉链表同步&装载脚本离线数仓-7-数据仓库开发DIM层设计要点-拉链表同步&装载脚本一、DIM层 维度模型 设计要点6.用户维度表 -拉链表1.用户维度表 前期梳理2.用户维度表 DDL表设计分析3.用户维度表 加载数据分析1.拉链表首日装载数…

RocketMQ 5.x新版本部署优化一览

​ RocketMQ从2022年9月份开始推出了新的5.x大版本。相比于之前的4.x版本&#xff0c;5.x版本向云原生前进了一大步。在增强原因功能的基础上&#xff0c;更是支持多语言客户端&#xff0c;周边生态也进行了补强和完善&#xff0c;明显可以看到离Kafka老大哥又近了很大一步。 …

linux网络编程-多进程实现TCP并发服务器

服务端流程步骤socket函数创建监听套接字lfdbind函数将监听套接字绑定ip和端口listen函数设置服务器为被动监听状态&#xff0c;同时创建一条未完成连接队列&#xff08;没走完tcp三次握手流程的连接&#xff09;&#xff0c;和一条已完成连接队列&#xff08;已完成tcp三次握手…

3-虚拟机篇

一.java JVM 的内存结构 内存&#xff1a;按线程类型分两类 线程共享&#xff1a; 方法区&#xff1a;存放类的信息堆&#xff1a;存放java对象的信息 线程私有&#xff1a; java虚拟机栈&#xff1a;存放java方法、方法参数和局部变量程序计数器&#xff1a;记录程序执行…

mars3d将当前视⻆指向北⽅且加载建筑物白膜

通过 setView⽅法实现&#xff0c;可以设置heading参数控制相对旋转⻆度map.scene.camera.setView({ orientation: { heading: 0, } }) 相关示例&#xff1a;1.http://mars3d.cn/editor-vue.html?idmap/options/scene2.功能示例(Vue版) | Mars3D三维可视化平台 | 火星科技// *…

ESP32S3 SPI发送间隔频率 驱动ADS8326

ESP32S3 SPI发送间隔频率驱动ADS8326esp32s3 spi例程 代码测试用寄存器方式实现spi发送寄存器描述驱动ADS8326 ads8326驱动时序 首先CS信号拉低&#xff0c;然后clk发送6个时钟&#xff0c;ads8326开始启动转换。 最后clk发送16个时钟&#xff0c;就会读取到两个字节的数据&a…

Spring扫描逻辑原码解析(带图好理解)

先上流程图 再上类图 再上代码 public static void main(String[] args) {XsmApplicationContext applicationContextnew XsmApplicationContext(AppConfig.class);System.out.println(applicationContext.getBean("userService"));System.out.println(applicationCo…

Laravel框架学习笔记——Laravel环境配置及安装(Ubuntu20.04为例)

目录引言1、安装Nginx2、安装PHP3、安装Composer4、搭建Laravel框架项目5、修改Nginx映射6、安装MySQL引言 好久没写博客了&#xff0c;因为个人需要&#xff0c; 所以要涉及到Laravel框架的学习&#xff0c;所以会出一系列的关于PHP的Laravel框架学习笔记&#xff0c;希望能够…

【平台数仓设计——2023】

平台数仓设计——2023前言一、选取大数据平台1、CDH大数据平台2、HDP大数据平台3、CDP大数据平台4、各种云数据中台二、选取调度平台1、DolphinScheduler(海豚调度)2、AzKaban3、Oozie4、Airflow5、corntab命令三、选取数仓设计方案1、离线数仓2、实时数仓3、离线实时一体化数仓…

尚医通 (二十二)预约下单

目录一、预约下单功能(一)1、需求2、搭建订单模块3、封装Feign调用获取就诊人接口4、封装Feign调用获取排班下单信息接口二、预约下单功能(二)1、实现生成订单接口三、预约下单功能(三)四、预约下单功能(四)1、生成订单后处理逻辑-封装短信接口2、生成订单后处理逻辑-更新排班数…

cracklib与libpwquality 评估密码的安全性

一、cracklib 检测密码强弱linux中采用pam pam_cracklib module来实现对密码强度的检测&#xff0c;可以通过配置让linux系统自动检测用户的密码是否为弱密码。yuminstall cracklib # centos apt-get install libcrack2 # ubuntu # 如果需要依赖此库做开发的话需要安装这个 y…

墨者——内部文件上传系统漏洞分析溯源 内部文件上传系统漏洞分析溯源

墨者——内部文件上传系统漏洞分析溯源 内部文件上传系统漏洞分析溯源 1.选择合适的文件上传 2.可以看到为*.asp文件 3.可以推测出此站点为IIS 4.上传shell.asp试试 5.上传报错&#xff0c;将其改名为shell.asp.txt上传&#xff0c;发现上传成功 6.有个问题就是服务器将我们所…

Node 10.0.8.6:9003 is unknown to cluster

解决方案解决方案一解决方案一 ① 概念介绍 公网ip&#xff1a;就是任意两台连接了互联网的电脑可以互相ping ip,能够通的ip 内网ip&#xff1a;只是在内网中使用无法与外网连接的ip ②问题背景 在腾讯云上搭建的一个redis集群&#xff0c;集群启动后 可以看到启动节点…