在无外网环境下部署Prometheus与Grafana:构建企业级可视化监控平台
1. 为什么要在内网“从零到一”搭建监控平台很多朋友一听到“监控”可能第一反应是“云上不是有现成的服务吗”或者“开源工具直接apt-get install不就好了”。这话没错但在很多真实的公司环境里尤其是金融、政务、能源或者一些对数据安全有极高要求的企业生产服务器是完全隔离的。它们没有也不允许有访问互联网的权限。这就是我们常说的“纯内网”、“离线”或“隔离环境”。在这种环境下你没法一键curl下载安装包没法用docker pull拉取镜像甚至yum update都报错。但业务系统的健康度、服务器的资源使用情况、应用的性能指标这些监控需求一点都不会少反而因为环境封闭出了问题更难排查对监控的依赖更强。所以在无外网环境下部署一套成熟、稳定、可视化的监控平台不是“可选”而是“刚需”。Prometheus Grafana 这个组合可以说是当前监控领域的“黄金搭档”。Prometheus 负责“抓”和“存”它像一位不知疲倦的巡检员定时从各个目标比如你的服务器、数据库、应用拉取指标数据并按照时间序列存储起来。Grafana 则负责“看”和“炫”它是一位顶尖的数据设计师能把 Prometheus 里那些冰冷的数字变成一目了然的曲线图、仪表盘让你一眼就能看出 CPU 是不是飙高了内存是不是不够用了。把这两者在内网搭起来就相当于你在一个封闭的园区里自己建立了一套完整的安防监控系统。摄像头各种 Exporter负责采集画面录像机Prometheus负责存储录像而监控大屏Grafana则让你坐在中控室就能掌控全局。接下来我就把我这些年在这种环境下趟过的路、踩过的坑总结成一套可复制、可落地的实操方案手把手带你构建这个企业级的可视化监控平台。2. 战前准备搞定所有离线资源打仗之前粮草先行。在离线环境部署最大的挑战就是“缺粮少草”。所有依赖都得提前备齐而且要考虑周全。这一步做扎实了后面的部署就是水到渠成。2.1 规划你的“离线资源包”你不能只下载 Prometheus 和 Grafana 的主程序就完事了。一个生产可用的监控平台它的资源包应该像下面这个清单一样完整核心组件二进制包Prometheus从 prometheus.io/download 选择对应操作系统和架构的.tar.gz文件。Grafana从 grafana.com/grafana/download 选择对应的版本。注意Grafana 有开源版和企业版对于绝大多数场景开源版grafana-{version}.linux-amd64.tar.gz完全足够。Node Exporter这是采集 Linux 主机指标CPU、内存、磁盘、网络等的必备组件。同样在 Prometheus 官网的下载页面可以找到。依赖的系统库非常重要这是最容易出问题的地方。你的目标服务器如果是一个干净的、最小化安装的系统可能会缺少一些运行 Grafana 或某些 Exporter 所需的动态链接库.so文件。你可以在一台与目标服务器操作系统版本如 CentOS 7.9一致的、可联网的机器上使用yum install或apt-get install安装好这些组件然后通过ldd命令检查二进制文件把缺失的库文件打包。更稳妥的方法是直接准备一个包含基础依赖的标准化系统镜像。初始化脚本与配置文件把安装、配置、启动的步骤全部脚本化。我强烈建议你不要手动一行行敲命令而是编写一个完整的安装脚本Shell 或 Ansible Playbook。这个脚本应该包含创建专用系统用户、解压文件、设置目录权限、生成 systemd 服务单元文件、配置防火墙规则等所有操作。Grafana 仪表板模板为了让监控一上线就有漂亮的视图可以提前下载好一些社区优秀的仪表板 JSON 文件。比如监控 Linux 主机的 Node Exporter Full 仪表板ID: 1860或者监控 MySQL、Redis 等中间件的仪表板。我的经验是专门找一台跳板机能通内外网创建一个清晰的目录结构来管理所有这些资源最后打包成一个完整的offline-monitoring-package.tar.gz。这样你只需要把这个大包传到内网机器上解压后执行脚本就能完成部署。2.2 安全高效的传输策略资源包准备好了怎么送进内网根据不同的安全规范有几种常见方式物理介质最安全也最“复古”。用U盘或移动硬盘拷贝通过安检带入机房。记得在传输前后校验文件的MD5或SHA256值确保文件完整无误。内部文件服务器如果内网有像 Nexus、Artifactory 这样的私有仓库或者简单的 FTP/SFTP 服务器可以先将资源包上传到那里然后内网服务器再从内部地址下载。这是比较规范和推荐的方式。堡垒机中转通过公司授权的堡垒机使用scp或rsync命令进行传输。例如# 从本地推送到内网服务器 scp -P 22 offline-monitoring-package.tar.gz userinternal-server-ip:/tmp/ # 或者使用rsync支持断点续传 rsync -avzP -e ssh -p 22 offline-monitoring-package.tar.gz userinternal-server-ip:/tmp/无论用哪种方式校验和验证是必不可少的一步。在传输完成后在内网服务器上计算文件的哈希值与源文件对比确保万无一失。3. 实战部署手把手安装与配置资源就位我们开始真正的部署。我会用一个我优化过的、更健壮的安装脚本来演示并解释其中每个关键步骤的用意。3.1 一键安装脚本详解把下面的脚本保存为deploy_monitoring.sh。这个脚本比我见过的大多数示例都要完善它考虑了用户创建、权限控制、服务配置和基础的健康检查。#!/bin/bash set -e # 遇到任何错误就退出避免错误累积 # 用户可配置变量 PROMETHEUS_VERSION2.53.2 GRAFANA_VERSION10.2.0 NODE_EXPORTER_VERSION1.8.2 INSTALL_BASE/opt # 我习惯放在/opt下清晰好管理 DATA_BASE/data/monitoring # 数据目录单独存放通常/data是更大的存储空间 # 创建必要的目录和用户 echo 创建安装目录和数据目录... sudo mkdir -p $INSTALL_BASE sudo mkdir -p $DATA_BASE/prometheus $DATA_BASE/grafana echo 创建系统用户如果不存在... if ! id prometheus /dev/null; then sudo useradd --no-create-home --shell /sbin/nologin --system prometheus fi if ! id grafana /dev/null; then sudo useradd --no-create-home --shell /sbin/nologin --system grafana fi if ! id node_exporter /dev/null; then sudo useradd --no-create-home --shell /sbin/nologin --system node_exporter fi # 部署 Prometheus echo 解压并安装 Prometheus... sudo tar -xzf prometheus-${PROMETHEUS_VERSION}.linux-amd64.tar.gz -C $INSTALL_BASE/ sudo ln -sfn $INSTALL_BASE/prometheus-${PROMETHEUS_VERSION}.linux-amd64 $INSTALL_BASE/prometheus echo 配置 Prometheus 数据目录权限... sudo chown -R prometheus:prometheus $DATA_BASE/prometheus sudo chown -R prometheus:prometheus $INSTALL_BASE/prometheus-${PROMETHEUS_VERSION}.linux-amd64 echo 生成 Prometheus 系统服务文件... sudo tee /etc/systemd/system/prometheus.service /dev/null EOF [Unit] DescriptionPrometheus Time Series Database and Monitoring System Documentationhttps://prometheus.io/docs/introduction/overview/ Wantsnetwork-online.target Afternetwork-online.target [Service] Userprometheus Groupprometheus Typesimple Restarton-failure RestartSec5s ExecStart$INSTALL_BASE/prometheus/prometheus \ --config.file$INSTALL_BASE/prometheus/prometheus.yml \ --storage.tsdb.path$DATA_BASE/prometheus \ --web.console.templates$INSTALL_BASE/prometheus/consoles \ --web.console.libraries$INSTALL_BASE/prometheus/console_libraries \ --web.listen-address0.0.0.0:9090 \ --web.enable-lifecycle ExecReload/bin/kill -HUP \$MAINPID [Install] WantedBymulti-user.target EOF # 部署 Node Exporter echo 解压并安装 Node Exporter... sudo tar -xzf node_exporter-${NODE_EXPORTER_VERSION}.linux-amd64.tar.gz -C $INSTALL_BASE/ sudo ln -sfn $INSTALL_BASE/node_exporter-${NODE_EXPORTER_VERSION}.linux-amd64 $INSTALL_BASE/node_exporter sudo chown -R node_exporter:node_exporter $INSTALL_BASE/node_exporter-${NODE_EXPORTER_VERSION}.linux-amd64 echo 生成 Node Exporter 系统服务文件... sudo tee /etc/systemd/system/node_exporter.service /dev/null EOF [Unit] DescriptionNode Exporter for Machine Metrics Wantsnetwork-online.target Afternetwork-online.target [Service] Usernode_exporter Groupnode_exporter Typesimple Restarton-failure RestartSec5s ExecStart$INSTALL_BASE/node_exporter/node_exporter \ --collector.systemd \ --collector.processes [Install] WantedBymulti-user.target EOF # 部署 Grafana echo 解压并安装 Grafana... sudo tar -xzf grafana-${GRAFANA_VERSION}.linux-amd64.tar.gz -C $INSTALL_BASE/ sudo ln -sfn $INSTALL_BASE/grafana-${GRAFANA_VERSION} $INSTALL_BASE/grafana echo 配置 Grafana 数据目录权限... sudo chown -R grafana:grafana $DATA_BASE/grafana sudo chown -R grafana:grafana $INSTALL_BASE/grafana-${GRAFANA_VERSION} echo 生成 Grafana 系统服务文件... sudo tee /etc/systemd/system/grafana.service /dev/null EOF [Unit] DescriptionGrafana Dashboard and Visualization Platform Documentationhttps://grafana.com/docs/grafana/latest/ Wantsnetwork-online.target Afternetwork-online.target [Service] Usergrafana Groupgrafana Typesimple Restarton-failure RestartSec5s WorkingDirectory$INSTALL_BASE/grafana EnvironmentFile-/etc/default/grafana-server ExecStart$INSTALL_BASE/grafana/bin/grafana-server \ --config$INSTALL_BASE/grafana/conf/defaults.ini \ --homepath$INSTALL_BASE/grafana \ cfg:default.paths.logs/var/log/grafana \ cfg:default.paths.data$DATA_BASE/grafana \ cfg:default.paths.plugins$DATA_BASE/grafana/plugins \ cfg:default.server.http_addr0.0.0.0 \ cfg:default.server.http_port3000 LimitNOFILE10000 TimeoutStopSec20 [Install] WantedBymulti-user.target EOF # 配置 Prometheus 抓取目标 echo 配置 Prometheus 抓取本机 Node Exporter... sudo tee $INSTALL_BASE/prometheus/prometheus.yml /dev/null EOF global: scrape_interval: 15s evaluation_interval: 15s scrape_configs: - job_name: prometheus static_configs: - targets: [localhost:9090] - job_name: node_exporter static_configs: - targets: [localhost:9100] labels: group: infra-nodes EOF sudo chown prometheus:prometheus $INSTALL_BASE/prometheus/prometheus.yml # 启动所有服务 echo 重新加载 systemd 并启动服务... sudo systemctl daemon-reload for service in prometheus node_exporter grafana; do echo 启动 $service ... sudo systemctl enable --now $service sleep 2 sudo systemctl status $service --no-pager -l done echo 部署完成 echo 访问地址 echo - Prometheus: http://$(hostname -I | awk {print $1}):9090 echo - Grafana: http://$(hostname -I | awk {print $1}):3000 (初始账号/密码: admin/admin) echo - Node Exporter Metrics: http://$(hostname -I | awk {print $1}):9100/metrics这个脚本做了几件关键事一是使用了set -e确保脚本健壮性二是将程序文件和数据文件分离便于后续升级和维护三是为每个服务创建了独立的非登录系统用户遵循最小权限原则四是在服务配置中加入了Restarton-failure让服务能自动恢复五是自动配置了 Prometheus 去抓取本机的 Node Exporter。注意运行脚本前请确保prometheus-*.tar.gz,grafana-*.tar.gz,node_exporter-*.tar.gz这三个包都在当前目录。执行命令sudo bash deploy_monitoring.sh。3.2 防火墙与基础验证服务启动后如果服务器开启了防火墙如 firewalld 或 ufw需要放行端口# 对于 firewalld (CentOS/RHEL) sudo firewall-cmd --permanent --add-port9090/tcp # Prometheus sudo firewall-cmd --permanent --add-port3000/tcp # Grafana sudo firewall-cmd --permanent --add-port9100/tcp # Node Exporter sudo firewall-cmd --reload # 对于 ufw (Ubuntu/Debian) sudo ufw allow 9090/tcp sudo ufw allow 3000/tcp sudo ufw allow 9100/tcp sudo ufw reload验证服务是否正常运行检查服务状态sudo systemctl status prometheus grafana node_exporter看到active (running)就对了。检查端口监听sudo ss -ntlp | grep -E :(9090|3000|9100)确认进程在监听。简单CURL测试curl -s http://localhost:9090/-/healthy # Prometheus健康检查 curl -s http://localhost:3000/api/health # Grafana健康检查 curl -s http://localhost:9100/metrics | head -5 # 查看Node Exporter指标如果都能返回正常信息说明核心服务已经就绪。4. 构建生产级监控体系基础服务跑起来只是第一步。要让这套平台真正能在生产环境扛起大梁我们还得从“能用”升级到“好用且可靠”。4.1 配置管理告别手动修改生产环境机器往往不止一台。你不可能每台机器都去手动修改prometheus.yml。我的做法是将配置中心化、模板化。使用文件服务发现这是 Prometheus 自带的一个非常实用的功能。你可以在一个内网共享位置如 NFS维护一个targets.json文件列出所有需要监控的节点。Prometheus 配置文件里只需指向这个文件就能动态发现监控目标无需重启。# prometheus.yml 片段 scrape_configs: - job_name: node_exporter_cluster file_sd_configs: - files: - /etc/prometheus/targets/nodes.json # 共享路径下的文件 refresh_interval: 5m # 每5分钟刷新一次nodes.json文件内容类似[ { targets: [ 192.168.1.101:9100, 192.168.1.102:9100 ], labels: { env: production, role: web-server } }, { targets: [ 192.168.1.201:9100 ], labels: { env: production, role: database } } ]这样当你扩容或下线服务器时只需要更新这个 JSON 文件Prometheus 会自动应用新的监控列表。Grafana 数据源与仪表板配置化同样Grafana 的数据源和常用仪表板也可以通过 Provisioning配置供应功能来批量配置。你可以在grafana.ini中指定provisioning目录里面放上datasources.yaml和dashboards.yaml文件。这样在部署新 Grafana 实例时数据源和仪表板会自动加载保证环境一致性。4.2 高可用与数据持久化考量对于核心监控系统我们得考虑它挂了怎么办。Prometheus 高可用最简单的方案是跑两个一模一样的 Prometheus 实例同时抓取相同的目标。Grafana 可以配置多个数据源或者使用 Prometheus 的联邦集群特性。更高级的方案是使用 Thanos 或 Cortex它们能解决 Prometheus 单机存储和全局查询的问题但这在离线环境下部署复杂度会剧增需要根据业务重要性权衡。数据持久化脚本里我们把数据目录放在/data/monitoring。你必须确保这个目录挂载的是一块独立、容量充足、性能较好的磁盘最好是 SSD。Prometheus 的 TSDB 对磁盘 IO 比较敏感。同时要制定备份策略定期备份这个数据目录到其他存储。Prometheus 自带的--storage.tsdb.retention.time参数可以控制数据保留时间默认15天生产环境通常需要调整到30天甚至90天。Grafana 会话持久化如果你部署了多个 Grafana 实例做负载均衡需要配置同一个数据库如内网 MySQL来存储用户、仪表板等元数据并使用 Redis 等来共享会话这样才能实现单点登录。4.3 告警集成让监控主动说话监控不能只“看”还得能“喊”。Prometheus 的 Alertmanager 就是负责“喊”的组件。同样你需要下载它的离线包进行部署。部署 Alertmanager过程与 Prometheus 类似创建用户、解压、配置服务。关键是其配置文件alertmanager.yml里面需要配置告警接收方式比如内网常用的邮件服务器SMTP、企业微信机器人、钉钉机器人等。由于内网无法调用公网API你需要确保配置的接收端是内网可达的。配置 Prometheus 告警规则在 Prometheus 的配置目录下创建rules/文件夹里面存放node_alerts.yml这样的告警规则文件。规则里定义了何时触发告警例如groups: - name: node_alerts rules: - alert: InstanceDown expr: up{jobnode_exporter} 0 for: 1m labels: severity: critical annotations: summary: 实例 {{ $labels.instance }} 下线 description: {{ $labels.instance }} 的 Node Exporter 已超过1分钟无法访问。在 Prometheus 中关联在prometheus.yml中配置rule_files路径和alerting指向 Alertmanager 的地址。这样当某台服务器宕机超过1分钟Prometheus 会根据规则触发告警并推送给 AlertmanagerAlertmanager 再根据路由配置将告警消息发送到指定的邮件组或群聊运维人员就能第一时间被通知到。5. 从数据到洞察Grafana 仪表板实战服务稳定运行告警也配置好了最后一步就是打造一个让开发和运维都爱看的监控“驾驶舱”。5.1 连接数据源与导入仪表板首次登录 Grafana默认admin/admin它会强制你修改密码。之后的第一步就是添加数据源。添加 Prometheus 数据源左侧齿轮图标 -Data Sources-Add data source选择 Prometheus。最关键的是HTTPURL填写你的 Prometheus 地址比如http://localhost:9090。其他参数如Scrape interval可以先保持默认。点击Save test看到绿色的 “Data source is working” 提示就成功了。导入现成仪表板这是最快出效果的方式。点击左侧号 -Import。在Import via grafana.com框里输入社区仪表板的 ID比如刚才提到的1860Node Exporter Full然后点击Load。选择对应的 Prometheus 数据源点击Import。一个功能极其丰富的主机监控仪表板就瞬间呈现在你面前了CPU、内存、磁盘IO、网络流量、系统负载等图表一应俱全。5.2 打造自定义业务监控视图除了系统监控业务应用监控更重要。假设你有一个内网的 Java Web 应用可以通过 Micrometer 暴露 Prometheus 格式的指标。在 Prometheus 中添加 Job编辑prometheus.yml添加一个新的抓取任务。- job_name: my_java_app metrics_path: /actuator/prometheus static_configs: - targets: [app-server-ip:8080] labels: application: user-service env: prod在 Grafana 中创建自定义面板新建一个 Dashboard点击Add visualization。在 Query 里选择你的 Prometheus 数据源然后就可以使用 PromQL 查询语句来绘制图表了。例如想查看这个应用每秒的 HTTP 请求数假设有http_requests_total指标可以输入rate(http_requests_total[5m])。Grafana 的强大之处在于你可以通过灵活的 PromQL 查询几乎能可视化任何你关心的业务指标比如订单创建速率、接口95分位响应时间、缓存命中率等。5.3 一些提升效率的实战技巧使用变量Variables在 Dashboard 设置里可以添加变量比如$host值通过 PromQL 查询label_values(node_uname_info, instance)动态获取。这样你可以在面板的查询语句中使用node_memory_MemFree_bytes{instance~$host}然后通过 Dashboard 顶部的下拉框快速切换查看不同主机的数据一个仪表板搞定所有机器。设置播放列表Playlist对于运维值班大屏可以创建一个 Playlist轮播展示核心业务、数据库、服务器集群等几个关键的仪表板信息呈现更集中。善用告警面板Alert Panel在 Dashboard 中添加一个Alert list面板可以实时显示当前触发的告警结合大屏展示告警状态一目了然。踩过几次坑之后我最大的体会是离线部署的核心难点不在于技术本身而在于事前的周密准备和部署过程的标准化。把每一个依赖项、每一个配置步骤都脚本化、文档化形成一套属于自己团队的部署流程。这样无论是初始化一套新环境还是进行版本升级都会变得可控且高效。当你在完全封闭的网络里看到 Grafana 上那些跳动的曲线和指标时那种对系统了如指掌的掌控感就是运维工作最大的成就感来源。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2409158.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!