SparkSQL 优化实操

news2025/6/8 6:53:15

一、基础优化配置

1. 资源配置优化

# 提交Spark作业时的资源配置示例
spark-submit \
  --master yarn \
  --executor-memory 8G \
  --executor-cores 4 \
  --num-executors 10 \
  --conf spark.sql.shuffle.partitions=200 \
  your_spark_app.py

参数说明

  • executor-memory: 每个Executor的内存

  • executor-cores: 每个Executor的CPU核心数

  • num-executors: Executor数量

  • spark.sql.shuffle.partitions: Shuffle操作的分区数(通常设为集群核心数的2-3倍)

2. 内存管理优化

// 在SparkSession初始化时设置
val spark = SparkSession.builder()
  .appName("OptimizedSparkSQL")
  .config("spark.memory.fraction", "0.8")  // 执行和存储内存占总内存的比例
  .config("spark.memory.storageFraction", "0.3")  // 存储内存占内存比例
  .getOrCreate()

二、SQL查询优化技巧

1. 分区裁剪(Partition Pruning)

-- 原始查询(全表扫描)
SELECT * FROM sales WHERE dt = '2023-01-01';

-- 优化后(确保表按dt分区)
SELECT * FROM sales WHERE dt = '2023-01-01';  -- 自动分区裁剪

2. 谓词下推(Predicate Pushdown)

-- 原始查询(先JOIN后过滤)
SELECT a.*, b.name 
FROM transactions a 
JOIN users b ON a.user_id = b.id
WHERE a.dt = '2023-01-01' AND b.age > 18;

-- 优化后(过滤条件下推)
SELECT /*+ MAPJOIN(b) */ a.*, b.name 
FROM (SELECT * FROM transactions WHERE dt = '2023-01-01') a 
JOIN (SELECT id, name FROM users WHERE age > 18) b 
ON a.user_id = b.id;

3. 广播小表(Broadcast Join)

// 方式1: 通过配置自动广播
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", "10485760")  // 10MB

// 方式2: 手动指定广播
val smallDF = spark.table("small_table")
val largeDF = spark.table("large_table")
largeDF.join(broadcast(smallDF), "key")

三、数据存储优化

1. 文件格式选择

// 写入Parquet格式(列式存储,适合分析)
df.write.parquet("/path/to/parquet")

// 写入Delta Lake(支持ACID)
df.write.format("delta").save("/path/to/delta")

// 写入ORC(高度压缩)
df.write.orc("/path/to/orc")

2. 分区与分桶

// 按日期分区
df.write.partitionBy("dt").parquet("/path/to/partitioned")

// 分桶(适合大表JOIN)
df.write.bucketBy(50, "user_id").sortBy("user_id").saveAsTable("bucketed_table")

四、执行计划分析与优化

1. 查看执行计划

val df = spark.sql("SELECT * FROM sales WHERE amount > 100")
df.explain(true)  // 显示逻辑和物理计划

// 更详细的执行计划
spark.sql("EXPLAIN EXTENDED SELECT * FROM sales WHERE amount > 100").show(false)

2. 常见执行计划问题识别

  • 数据倾斜:某个task执行时间远长于其他task

  • 全表扫描:执行计划中出现Scan操作没有过滤条件

  • 非广播Join:出现SortMergeJoin而不是BroadcastHashJoin

  • 数据重复计算:同一子查询被多次执行

3. 解决数据倾斜

// 方法1: 加盐处理
import org.apache.spark.sql.functions._
val skewedKey = "user_id"

// 为倾斜键添加随机前缀
val saltedDF = df.withColumn("salted_key", 
  concat(col(skewedKey), lit("_"), floor(rand() * 10)))

// 方法2: 单独处理倾斜键
val commonDF = df.filter($"user_id" =!= "skewed_value")
val skewedDF = df.filter($"user_id" === "skewed_value")

// 分别处理后union
val result = commonDF.union(skewedDF)

五、缓存策略优化

1. 缓存热数据

val hotDF = spark.sql("SELECT * FROM hot_table")
hotDF.persist(StorageLevel.MEMORY_AND_DISK)  // 内存不足时溢写到磁盘

// 检查缓存状态
spark.catalog.cacheTable("hot_table")
spark.catalog.isCached("hot_table")

2. 缓存策略选择

存储级别描述适用场景
MEMORY_ONLY仅内存小数据集,频繁访问
MEMORY_AND_DISK内存+磁盘中等数据集
MEMORY_ONLY_SER序列化存储内存有限,减少内存占用
DISK_ONLY仅磁盘很少访问的大数据集

六、高级优化技巧

1. 动态资源分配

spark-submit \
  --conf spark.dynamicAllocation.enabled=true \
  --conf spark.dynamicAllocation.initialExecutors=5 \
  --conf spark.dynamicAllocation.minExecutors=2 \
  --conf spark.dynamicAllocation.maxExecutors=20 \
  your_app.py

2. 自适应查询执行(AQE)

// Spark 3.0+ 启用AQE
spark.conf.set("spark.sql.adaptive.enabled", "true")
spark.conf.set("spark.sql.adaptive.coalescePartitions.enabled", "true")
spark.conf.set("spark.sql.adaptive.advisoryPartitionSizeInBytes", "128MB")

3. 代码生成优化

// 启用全阶段代码生成(默认已启用)
spark.conf.set("spark.sql.codegen.wholeStage", "true")

// 对于复杂表达式,可调优
spark.conf.set("spark.sql.codegen.maxFields", "100")

七、监控与调优

1. Spark UI分析

  • Jobs页面:识别长任务

  • Stages页面:查看数据倾斜

  • Storage页面:检查缓存效率

  • SQL页面:分析查询执行计划

2. 日志分析

# 查看Executor日志中的GC情况
grep "GC" spark-executor-*.log

# 检查是否有OOM错误
grep "OutOfMemory" spark-executor-*.log

八、实战优化案例

案例:优化慢速JOIN查询

原始查询

SELECT a.*, b.* 
FROM large_table a 
JOIN small_table b ON a.key = b.key
WHERE a.dt BETWEEN '2023-01-01' AND '2023-01-31'

优化步骤

  1. 确认执行计划:发现是SortMergeJoin

  2. 检查表大小:small_table < 10MB

  3. 应用广播Join

    SELECT /*+ BROADCAST(b) */ a.*, b.* 
    FROM large_table a 
    JOIN small_table b ON a.key = b.key
    WHERE a.dt BETWEEN '2023-01-01' AND '2023-01-31'

  4. 添加分区过滤:确保large_table按dt分区

  5. 调整shuffle分区

    spark.conf.set("spark.sql.shuffle.partitions", "200")

通过以上优化,该查询性能提升了15倍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2403842.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库同步是什么意思?数据库架构有哪些?

目录 一、数据库同步是什么 &#xff08;一&#xff09;基本概念 &#xff08;二&#xff09;数据库同步的类型 &#xff08;三&#xff09;数据库同步的实现方式 二、数据库架构的类型 &#xff08;一&#xff09;单机架构 &#xff08;二&#xff09;主从复制架构 &a…

【数据结构】详解算法复杂度:时间复杂度和空间复杂度

&#x1f525;个人主页&#xff1a;艾莉丝努力练剑 ❄专栏传送门&#xff1a;《C语言》、《数据结构与算法》 &#x1f349;学习方向&#xff1a;C/C方向 ⭐️人生格言&#xff1a;为天地立心&#xff0c;为生民立命&#xff0c;为往圣继绝学&#xff0c;为万世开太平 前言&…

Rest-Assured API 测试:基于 Java 和 TestNG 的接口自动化测试

1. 右键点击项目的文件夹&#xff0c;选择 New > File。 2. 输入文件名&#xff0c;例如 notes.md&#xff0c;然后点击 OK。 3. 选择项目类型 在左侧的 Generators 部分&#xff0c;选择 Maven Archetype&#xff0c;这将为你生成一个基于 Maven 的项目。 4. 配置项目基…

react public/index.html文件使用env里面的变量

env文件 ENVdevelopment NODE_ENVdevelopment REACT_APP_URL#{REACT_APP_URL}# REACT_APP_CLIENTID#{REACT_APP_CLIENTID}# REACT_APP_TENANTID#{REACT_APP_TENANTID}# REACT_APP_REDIRECTURL#{REACT_APP_REDIRECTURL}# REACT_APP_DOMAIN_SCRIPT#{REACT_APP_DOMAIN_SCRIPT}#pu…

chili3d 笔记17 c++ 编译hlr 带隐藏线工程图

这个要注册不然emscripten编译不起来 --------------- 行不通 ---------------- 结构体 using LineSegment std::pair<gp_Pnt, gp_Pnt>;using LineSegmentList std::vector<LineSegment>; EMSCRIPTEN_BINDINGS(Shape_Projection) {value_object<LineSegment&g…

创建一个纯直线组成的字体库

纯直线组成的字体&#xff0c;一个“却”由五组坐标点组成&#xff0c;存储5个点共占21字节&#xff0c;使用简单&#xff0c;只要画直线即可&#xff0c; “微软雅黑”&#xff0c;2个轮廓&#xff0c;55坐标点&#xff0c;使用复杂&#xff0c;还填充。 自创直线字体 “微软…

Linux进程(中)

目录 进程等待 为什么有进程等待 什么是进程等待 怎么做到进程等待 wait waitpid 进程等待 为什么有进程等待 僵尸进程无法杀死&#xff0c;需要进程等待来消灭他&#xff0c;进而解决内存泄漏问题--必须解决的 我们要通过进程等待&#xff0c;获得子进程退出情况--知…

【计算机组成原理】计算机硬件的基本组成、详细结构、工作原理

引言 计算机如同现代科技的“大脑”&#xff0c;其硬件结构的设计逻辑承载着信息处理的核心奥秘。从早期程序员手动输入指令的低效操作&#xff0c;到冯诺依曼提出“存储程序”概念引发的革命性突破&#xff0c;计算机硬件经历了从机械操控到自动化逻辑的蜕变。本文将深入拆解…

MVC分层架构模式深入剖析

&#x1f504; MVC 交互流程 #mermaid-svg-5xGt0Ka13DviDk15 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-5xGt0Ka13DviDk15 .error-icon{fill:#552222;}#mermaid-svg-5xGt0Ka13DviDk15 .error-text{fill:#552222…

新能源汽车热管理核心技术解析:冬季续航提升40%的行业方案

新能源汽车热管理核心技术解析&#xff1a;冬季续航提升40%的行业方案 摘要&#xff1a;突破续航焦虑的关键在热能循环&#xff01; &#x1f449; 本文耗时72小时梳理行业前沿方案&#xff0c;含特斯拉/比亚迪等8家车企热管理系统原理图 一、热管理为何成新能源车决胜关键&am…

华为云Flexus+DeepSeek征文|DeepSeek-V3/R1开通指南及使用心得

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;CSDN领军人物&#xff0c;全栈领域优质创作者✌&#xff0c;CSDN博客专家&#xff0c;阿里云社区专家博主&#xff0c;2023年CSDN全站排名top 28。 &#x1f3c6;数年电商行业从业经验&#xff0c;AWS/阿里云资深使用用…

运行示例程序和一些基本操作

欢迎 ----> 示例 --> 选择sample CTRL B 编译代码 CTRL R 运行exe 项目 中 Shadow build 表示是否 编译生成文件和 源码是否放一块 勾上不在同一个地方 已有项目情况下怎么打开项目 方法一: 左键双击 xxx.pro 方法二: 文件菜单里面 选择打开项目

学习数字孪生,为你的职业发展开辟新赛道

你有没有想过&#xff0c;未来十年哪些技能最吃香&#xff1f; AI、大数据、智能制造、元宇宙……这些词频繁出现在招聘市场和行业报告中。而在它们背后&#xff0c;隐藏着一个“看不见但无处不在”的关键技术——数字孪生&#xff08;Digital Twin&#xff09;。 它不仅在制造…

WebRTC源码线程-1

1、概述 本篇主要是简单介绍WebRTC中的线程&#xff0c;WebRTC源码对线程做了很多的封装。 1.1 WebRTC中线程的种类 1.1.1 信令线程 用于与应用层的交互&#xff0c;比如创建offer&#xff0c;answer&#xff0c;candidate等绝大多数的操作 1.1.2 工作线程 负责内部的处理逻辑&…

MySQL中的内置函数

文章目录 一、日期函数1.1 获取当前的日期1.2 获取当前时间1.3 获取当前日期和时间1.4 提取时间日期1.5 添加日期1.6 减少日期1.7 两个日期的差值 二、字符串处理函数2.1 获取字符串的长度2.2 获取字符串的字节数2.3 字符串拼接2.4 转小写2.5 转大写2.6 子字符串第⼀次出现的索…

YOLOv8n行人检测实战:从数据集准备到模型训练

YOLOv8n行人检测实战&#xff1a;从数据集准备到模型训练 一、为什么选择YOLOv8&#xff1f;二、环境准备2.1 环境配置解析 三、安装Ultralytics框架四、数据集准备与理解4.1 数据集下载4.2 数据集结构4.3 YOLO标签格式解析 五、数据集可视化&#xff1a;理解标注数据5.1 可视化…

国标GB28181设备管理软件EasyGBS远程视频监控方案助力高效安全运营

一、方案背景​ 在商业快速扩张的背景下&#xff0c;连锁店门店数量激增&#xff0c;分布范围广。但传统人工巡检、电话汇报等管理方式效率低下&#xff0c;存在信息滞后、管理盲区&#xff0c;难以掌握店铺运营情况&#xff0c;影响企业效率与安全。网络远程视频监控系统可有…

网络寻路--图论

所以我们固定题中M条边&#xff08;因为这M条一定联通&#xff09; P8605 [蓝桥杯 2013 国 AC] 网络寻路 - 洛谷 #include<bits/stdc.h> using namespace std; #define N 100011 typedef long long ll; typedef pair<int,int> pii; int n,m; int d[N],u[N],v[N]…

LangChain4j 学习教程项目

LangChain4j 学习教程 项目地址项目简介主要功能使用的技术和库项目环境配置环境要求 依赖版本每天学习内容和目标Day 01Day 02Day 03Day 04Day 05Day 06Day 07Day 08Day 09Day 10Day 11Day 12重点学习内容 RAG 经过为期12天&#xff08;日均1小时&#xff09;的LangChain4j源码…

【读论文】U-Net: Convolutional Networks for Biomedical Image Segmentation 卷积神经网络

摘要1 Introduction2 Network Architecture3 Training3.1 Data Augmentation 4 Experiments5 Conclusion背景知识卷积激活函数池化上采样、上池化、反卷积softmax 归一化函数交叉熵损失 Olaf Ronneberger, Philipp Fischer, Thomas Brox Paper&#xff1a;https://arxiv.org/ab…