Flink运维要点

news2025/5/19 1:11:39

一、Flink 运维核心策略

1. 集群部署与监控
  • 资源规划
    • 按业务优先级分配资源:核心作业优先保障内存和 CPU,避免资源竞争。
    • 示例:为实时风控作业分配专用 TaskManager,配置 taskmanager.memory.process.size=8g
  • 监控体系
    • 集成 Prometheus 和 Grafana,监控指标包括:
    • - flink_taskmanager_numRegisteredTaskManagers  # 在线TM数量
      - flink_jobmanager_job_numRunningJobs         # 运行中作业数
      - flink_taskmanager_status_jvm_memory_used    # JVM内存使用
      - flink_taskmanager_network_buffer_pool_usage # 网络缓冲区使用率
      

2. Checkpoint 与状态管理

配置优化

execution.checkpointing.interval: 30s        # 检查点间隔
execution.checkpointing.timeout: 10m         # 超时时间
execution.checkpointing.min-pause: 5s        # 最小间隔
state.checkpoints.num-retained: 3            # 保留最近3个检查点

状态后端选择

  • 大状态作业(如窗口聚合)使用 RocksDB:
state.backend: rocksdb
state.backend.rocksdb.localdir: /data/rocksdb # 本地存储路径
3. 资源调优
  • 并行度调整
    • 根据输入分区数设置初始并行度:
    • # 例如Kafka有16个分区
      env.set_parallelism(16)

内存配置

  • 避免 OOM:
taskmanager.memory.process.size: 12g
taskmanager.memory.heap.size: 8g          # 堆内存
taskmanager.memory.network.max: 1g        # 网络缓冲区上限

二、常见问题及解决方案

1. 作业频繁失败
  • 可能原因
    • Checkpoint 超时或失败
    • 外部系统连接中断(如 Kafka/ZK)
    • 状态后端性能不足(如 HDFS 网络抖动)
  • 解决步骤
    1. 查看 Web UI 的 Checkpoint 统计,定位失败原因
    2. 增加 Checkpoint 超时时间:execution.checkpointing.timeout: 20m
    3. 配置重试策略:
  • env.setRestartStrategy(RestartStrategies.fixedDelayRestart(
        3,                            // 最多重试3次
        Time.of(10, TimeUnit.SECONDS) // 每次重试间隔10秒
    ));
2. 反压问题
  • 排查方法
    • 通过 Web UI 的反压监控面板,识别红色(严重反压)算子
    • 使用 Thread Dump 分析阻塞点
  • 解决方案
    • 对瓶颈算子单独提效:
    • .keyBy(...)
      .window(TumblingEventTimeWindows.of(Time.seconds(10)))
      .process(new MyHeavyProcessFunction())
      .setParallelism(32)  // 单独提高并行度

优化数据倾斜:

// 两阶段聚合解决数据倾斜
.map(new AddRandomKeyFunction())  // 添加随机前缀
.keyBy(...)
.window(...)
.aggregate(new PartialAggregate())
.keyBy(...)
.window(...)
.aggregate(new FinalAggregate())
3. OOM 故障
  • 定位工具
    • JVM 堆转储分析(Heap Dump)
    • Flink Web UI 的 TaskManager 内存监控
  • 解决措施
    • 增加堆内存:taskmanager.memory.heap.size: 10g
    • 启用堆外内存:
    • state.backend.rocksdb.memory.managed: true  # 使用Flink管理的内存
      taskmanager.memory.managed.fraction: 0.4    # 管理内存占比40%

减少状态大小:

StateTtlConfig ttlConfig = StateTtlConfig
    .newBuilder(Time.hours(1))  // 状态1小时过期
    .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
    .build();
valueStateDescriptor.enableTimeToLive(ttlConfig);

三、自动化运维实践

1. 告警配置(Prometheus+Alertmanager)

groups:
- name: flink.rules
  rules:
  - alert: FlinkJobFailed
    expr: flink_jobmanager_job_numFailedJobs > 0
    for: 1m
    labels:
      severity: critical
    annotations:
      summary: "Flink Job 失败 (instance {{ $labels.instance }})"
      description: "Job {{ $labels.job_name }} 失败,原因: {{ $labels.error_message }}"

2. 故障自愈脚本

#!/bin/bash
# 自动重启失败的Flink作业
JOB_ID=$(flink list -r | grep "FAILED" | awk '{print $4}')
if [ ! -z "$JOB_ID" ]; then
  flink cancel $JOB_ID
  flink run -s last-savepoint-path /path/to/job.jar
  echo "已重启失败作业: $JOB_ID"
fi

3. 资源弹性扩缩

# K8s部署Flink时的HPA配置
apiVersion: autoscaling/v2beta2
kind: HorizontalPodAutoscaler
metadata:
  name: flink-taskmanager-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: flink-taskmanager
  minReplicas: 3
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70

四、性能调优进阶

1. 网络优化
taskmanager.network.numberOfBuffers: 16384  # 增加网络缓冲区数量
taskmanager.network.memory.fraction: 0.15   # 网络内存占比15%

2. JVM 参数优化

env.java.opts.taskmanager: "-XX:+UseG1GC -XX:MaxGCPauseMillis=200 -XX:+HeapDumpOnOutOfMemoryError"

3. 状态压缩

// 启用RocksDB状态压缩
RocksDBStateBackend backend = new RocksDBStateBackend("hdfs:///flink/checkpoints");
backend.setDbOptions(new DBOptions().setAllowOsBuffer(true).setUseFsync(false));
backend.setEnableIncrementalCheckpoints(true);  // 启用增量检查点
env.setStateBackend(backend);

五、安全与权限管理

1. Kerberos 认证
security.kerberos.login.enabled: true
security.kerberos.login.keytab: /path/to/keytab
security.kerberos.login.principal: flink@EXAMPLE.COM

2. REST API 鉴权

rest.auth.type: basic
rest.auth.basic.realm: Flink REST API
rest.auth.basic.users: admin:password123

3. 网络隔离

# 通过防火墙限制访问
iptables -A INPUT -p tcp --dport 8081 -s trusted-ip-range -j ACCEPT
iptables -A INPUT -p tcp --dport 8081 -j DROP

六、版本升级策略

1. 滚动升级步骤
  1. 从稳定版本(如 1.13)升级到 1.14:

# 1. 保存当前作业的Savepoint
flink savepoint <job-id> hdfs:///flink/savepoints/upgrade-sp

# 2. 停止Flink集群
bin/stop-cluster.sh

# 3. 替换Flink二进制文件
rm -rf flink-1.13.6
tar xzf flink-1.14.4-bin-scala_2.12.tgz

# 4. 复制原有配置
cp conf/* flink-1.14.4/conf/

# 5. 启动新集群
cd flink-1.14.4
bin/start-cluster.sh

# 6. 从Savepoint恢复作业
flink run -s hdfs:///flink/savepoints/upgrade-sp /path/to/job.jar

验证升级结果:

# 检查作业状态
flink list -r

# 查看Web UI确认指标正常

七、高可用部署

1. ZooKeeper 集群配置
high-availability: zookeeper
high-availability.cluster-id: /flink-cluster-1
high-availability.zookeeper.quorum: zoo1:2181,zoo2:2181,zoo3:2181
high-availability.storageDir: hdfs:///flink/ha/

2. 多 JobManager 部署

# conf/jobmanager-rpc-addresses
jobmanager1
jobmanager2
jobmanager3

# 启动所有JM
bin/jobmanager.sh start-all

通过以上策略,可以构建稳定、高效的 Flink 运维体系,快速响应并解决各类生产问题。建议定期进行故障演练(如模拟 TaskManager 崩溃),验证应急预案的有效性。 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2378056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CS016-4-unity ecs

【37】将系统转换为任务 Converting System to Job 【Unity6】使用DOTS制作RTS游戏|17小时完整版|CodeMonkey|【37】将系统转换为任务 Converting System to Job_哔哩哔哩_bilibili a. 将普通的方法&#xff0c;转化成job。第一个是写一个partial struct xxx&#xff1b;第二…

微信小程序第三方代开发模式技术调研与实践总结

🚀 微信小程序第三方代开发模式技术调研与实践总结 📖 前言 随着企业对私有化品牌运营诉求的增加,许多大型客户希望将原本由 SaaS 平台统一提供的小程序迁移至自有主体(AppID)下运行,同时又希望继续沿用 SaaS 平台的业务服务与数据托管方式。微信开放平台提供的“小程…

upload-labs通关笔记-第8关 文件上传之点绕过

目录 一、点绕过原理 二、deldot()函数 三、源码分析 四、渗透实战 1、构建脚本test8.php 2、打开靶场 3、bp开启拦截 4、点击上传 5、bp拦截 6、后缀名增加点 7、发包并获取脚本地址 8、访问脚本 本文通过《upload-labs靶场通关笔记系列》来进行upload-labs靶场的渗…

PCL PolygonMesh 与 TextureMesh 源码阅读与简单测试

Title: PCL PolygonMesh 与 TextureMesh 源码阅读与简单测试 文章目录 I . PolygonMesh1. PolygonMesh 结构体2. Vertices 结构体与点云索引3. 测试 PolygonMesh II. TextureMesh1. TextureMesh 结构体2. TexMaterial 结构体3. 纹理坐标与纹理坐标索引4. 测试 TextureMesh 以下…

量子算法:开启计算新时代的技术密码

摘要 量子算法是利用量子力学特性&#xff08;如叠加态、纠缠、干涉&#xff09;设计的计算模型&#xff0c;在特定问题上相比经典算法具有指数级加速优势。本文深入探讨了量子算法的核心原理、代表性算法及其在多个领域的应用&#xff0c;分析了量子算法面临的挑战与未来发展…

多线程代码案例-1 单例模式

单例模式 单例模式是开发中常见的设计模式。 设计模式&#xff0c;是我们在编写代码时候的一种软性的规定&#xff0c;也就是说&#xff0c;我们遵守了设计模式&#xff0c;代码的下限就有了一定的保证。设计模式有很多种&#xff0c;在不同的语言中&#xff0c;也有不同的设计…

CSS实现文本自动平衡text-wrap: balance

不再有排版孤行和寡行 我们都知道那些标题&#xff0c;最后一个单词换行并单独站在新行上&#xff0c;破坏了视觉效果&#xff0c;看起来很奇怪。当然&#xff0c;有老式的 手动换行或将内容分成不同部分。但您听说过text-wrap: balance吗&#xff1f; 通过应用text-wrap: bal…

mac M芯片运行docker-desktop异常问题

虽然mac已经迭代到m4了&#xff0c;但官方的docker-desktop运行仍然有问题&#xff0c;包括但不限于&#xff1a; 命令行docker找不到docker-desk打不开docker-desktop闪退容器起不来 尝试不同版本后&#xff0c;看到了其他可以在mac跑docker的开源方法&#xff0c;更简单、轻…

事件响应策略规范模版

事件响应策略 一、事件分级定义 根据事件对业务的影响程度和紧急程度,将事件分为 4个等级(P1-P4),明确各级事件的判定标准:、 二、响应时效承诺 响应时间(从事件确认到首次回复) P1 事件:15 分钟内响应(724 小时电话 / 工单优先接入) P2 事件:30 分钟内响应(工…

MGX:多智能体管理开发流程

MGX的多智能体团队如何通过专家混合系统采用全新方法,彻底改变开发流程,与当前的单一智能体工具截然不同。 Lovable和Cursor在自动化我们的特定开发流程方面取得了巨大飞跃,但问题是它们仅解决软件开发的单一领域。 这就是MGX(MetaGPT X)的用武之地,它是一种正在重新定…

采购流程规范化如何实现?日事清流程自动化助力需求、采购、财务高效协作

采购审批流程全靠人推进&#xff0c;内耗严重&#xff0c;效率低下&#xff1f; 花重金上了OA&#xff0c;结果功能有局限、不灵活&#xff1f; 问题出在哪里&#xff1f;是我们的要求太多、太苛刻吗&#xff1f;NO&#xff01; 流程名称&#xff1a; 采购审批管理 流程功能…

[模型部署] 3. 性能优化

&#x1f44b; 你好&#xff01;这里有实用干货与深度分享✨✨ 若有帮助&#xff0c;欢迎&#xff1a;​ &#x1f44d; 点赞 | ⭐ 收藏 | &#x1f4ac; 评论 | ➕ 关注 &#xff0c;解锁更多精彩&#xff01;​ &#x1f4c1; 收藏专栏即可第一时间获取最新推送&#x1f514;…

Vue3 加快页面加载速度 使用CDN外部库的加载 提升页面打开速度 服务器分发

介绍 CDN&#xff08;内容分发网络&#xff09;通过全球分布的边缘节点&#xff0c;让用户从最近的服务器获取资源&#xff0c;减少网络延迟&#xff0c;显著提升JS、CSS等静态文件的加载速度。公共库&#xff08;如Vue、React、Axios&#xff09;托管在CDN上&#xff0c;减少…

接触感知 钳位电路分析

以下是NG板接触感知电路的原理图。两极分别为P3和P4S&#xff0c;电压值P4S < P3。 电路结构分两部分&#xff0c;第一部分对输入电压进行分压钳位。后级电路使用LM113比较器芯片进行电压比较&#xff0c;输出ST接触感知信号。 钳位电路输出特性分析 输出电压变化趋势&a…

使用 gcloud CLI 自动化管理 Google Cloud 虚拟机

被操作的服务器&#xff0c;一定要开启API完全访问权限&#xff0c;你的电脑安装gcloud CLI前一定要先安装Python3&#xff01; 操作步骤 下载地址&#xff0c;安装大概需要十分钟&#xff1a;https://cloud.google.com/sdk/docs/install?hlzh-cn#windows 选择你需要的版本&a…

SQL语句,索引,视图,存储过程以及触发器

一、初识MySQL 1.数据库 按照数据结构来组织、存储和管理数据的仓库&#xff1b;是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合&#xff1b; 2.OLTP与OLAP OLTP&#xff08; On-Line transaction processing &#xff09;翻译为联机事务处理&am…

7. 进程控制-进程替换

目录 1. 进程替换 1.1 单进程版&#xff1a; 1.2 进程替换的原理 1.3 多进程版-验证各种程序替换接口 2. 进程替换的各种接口 2.1 execl 2.2 execlp 2.3 execv 2.4 execvp 2.5 execle 1. 进程替换 上图为程序替换的接口&#xff0c;之后会详细介绍。 1.1 单进程版&am…

理解 C# 中的各类指针

前言 变量可以理解成是一块内存位置的别名&#xff0c;访问变量也就是访问对应内存中的数据。 指针是一种特殊的变量&#xff0c;它存储了一个内存地址&#xff0c;这个内存地址代表了另一块内存的位置。 指针指向的可以是一个变量、一个数组元素、一个对象实例、一块非托管内存…

真题卷001——算法备赛

蓝桥杯2024年C/CB组国赛卷 1.合法密码 问题描述 小蓝正在开发自己的OJ网站。他要求用户的密码必须符合一下条件&#xff1a; 长度大于等于8小于等于16必须包含至少一个数字字符和至少一个符号字符 请计算一下字符串&#xff0c;有多少个子串可以当作合法密码。字符串为&am…

Vue3中实现轮播图

目录 1. 轮播图介绍 2. 实现轮播图 2.1 准备工作 1、准备至少三张图片&#xff0c;并将图片文件名改为数字123 2、搭好HTML的标签 3、写好按钮和图片标签 ​编辑 2.2 单向绑定图片 2.3 在按钮里使用方法 2.4 运行代码 3. 完整代码 1. 轮播图介绍 首先&#xff0c;什么是…