Spark学习笔记【shuffle】

news2025/12/16 17:25:49

本文基本上是大数据处理框架Apache Spark设计与实现的Shuffle部分的学习。以及Spark基础知识@Bambrow

Shuffle解决啥问题

上游和下游，不同stage，不同的task之间是如何传递数据的。ShuffleManager管理ShuffleWrite和ShuffleRead

分为两个阶段：

ShuffleWrite
上游stage输出的分区问题。

ShuffleRead
下游stage从上游获取数据，组织数据的问题

涉及到三个操作:

分区
分区是为了让reduce task可以获取相应的数据。
排序
有些算子需要进行排序。比如sortBy().可以在Shuffle机制中，完成排序。
聚合
相同key的结构放到一起，进行计算。
Map端聚合,可以减少Shuffle网络传输。

Shuffle框架的设计和实现

ShuffleWrite

HashShuffleManager(Spark2.0移除)：
哈希的方式决定Map端分区文件写入，临时文件命名为shuffle_“+shuffleId+”“+mapId+”"+reduceId,文件公用,追加写入。
缺点在于:
1,临时文件过多(R*C),随机写性能差。
2.写缓冲内存过大。
consolidate 机制可以重用文件，减少临时文件数。

它主要关注的点在于Map端的分区，聚合。

SortShuffleManager
在这里插入图片描述
分区，MapTask写缓冲区,Partition内不排序(MR对内按照Key进行排序)，溢写文件。完成之后，使用ExternalSorter对临时文件进行排序，合并成一个大文件和索引文件。

数据结构

ShuffleRead

跨节点获取数据，聚合和排序。

谁启动ReadTask，启动多少个线程？

和Hadoop的对比

Shuffle write 排序
Shuffle write 文件数目
Shuffle read 多线程拷贝
read聚合排序 MR归并(已经分区内部有序了)，哈希归并(按key哈希)

参考文档

spark源码之shuffleManager

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/494601.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于JavaWeb实现的寻码网文章资讯管理系统

基于JavaWeb实现的寻码网文章资讯管理系统

一、技术结构前端：html ajax 后端：SpringBootMybatis-plus 环境：JDK1.8 | Mysql | Maven | Redis 二、功能简介数据库与代码截图后端管理-登录页后端管理-首页后端管理-文章管理-发布文章后端管理-文章管理-文章列表后端管理-文…

阅读更多...

Vue快速入门，常用指令，生命周期

Vue快速入门，常用指令，生命周期

Vue常用指令案例： <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"…

阅读更多...

MySQL一次大量内存消耗的跟踪

MySQL一次大量内存消耗的跟踪

GreatSQL社区原创内容未经授权不得随意使用，转载请联系小编并注明来源。GreatSQL是MySQL的国产分支版本，使用上与MySQL一致。文章来源：GreatSQL社区原创线上使用MySQL8.0.25的数据库，通过监控发现数据库在查询一个视图(80张表的u…

阅读更多...

【网络进阶】WebSocket协议

【网络进阶】WebSocket协议

文章目录 1. Web实时技术的应用2. WebSocket协议介绍2.1 WebSocket的工作原理2.2 优点2.3. 使用场景2.4 实现细节 3. WebSocket服务器实现3.1 客户端代码（HTML & JavaScript）3.2 服务器端代码（C）3.3 测试结果 1. Web实时技术的…

阅读更多...

Qt 智能指针介绍： QSharedPointer、QWeakPointer 、QScopedPointer 、QPointer（附实例）

Qt 智能指针介绍： QSharedPointer、QWeakPointer 、QScopedPointer 、QPointer（附实例）

文章目录 1. 概述2. Qt 中有几种智能指针？2.1 QSharedPointer 实例2.2 QSharedPointer 与 QWeakPointer 实例2.3 QScopedPointer 实例2.4 QPointer 实例 1. 概述在使用动态内存分配的情况下，需要确保对象的所有权正确地被管理和转移。使用智能指针可以…

阅读更多...

【HarmonyOS】【FAQ】HarmonyOS应用开发相关问题解答（一）

【HarmonyOS】【FAQ】HarmonyOS应用开发相关问题解答（一）

【前提简介】本文档主要总结HarmonyOS开发过程中可能遇到的一些问题解答，主要围绕HarmonyOS展开，包括但不限于不同API版本HarmonyOS开发、UI组件、DevEco Studio、Gitee示例代码等，并将持续更新哦。【官方FAQ】【FAQ】HarmonyOS应用及服…

阅读更多...

（十二）地理数据库创建——基本组成项及数据加载

（十二）地理数据库创建——基本组成项及数据加载

地理数据库创建——基本组成项及数据加载目录地理数据库创建——基本组成项及数据加载 1.建立数据库中的基本组成项1.1建立要素数据集1.2建立要素类1.2.1建立简单要素类1.2.2建立关系表 1.3建立关系表 2.向地理数据库加载数据2.1导入数据2.1.1导入Shapefile2.1.2导入dBASE 表…

阅读更多...

数据结构：顺序表的增、删，查、改实现

数据结构：顺序表的增、删，查、改实现

1.概念顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构，一般情况下采用数组存储。在数组上完成数据的增删查改。 2.分类顺序表一般可以分为： 2.1 静态顺序表：使用定长数组存储元素这样会造成空间给多了浪费&#x…

阅读更多...

ThreadLocal初探

ThreadLocal初探

一、ThreadLocal介绍一、官方介绍从Java官方文档中的描述：ThreadLocal类用来提供线程内部的局部变量，这种变量在多线程环境下访问（通过get和set方法访问）时，能够保证各个线程的变量相对独立于其他线程内的变量。Thr…

阅读更多...

apple pencil必须要买吗？性价比平替电容笔排行榜

apple pencil必须要买吗？性价比平替电容笔排行榜

要知道，真正的苹果原装Pencil，价格实在是太贵了，普通的消费者根本买不起。所以，有没有可能出现一种平替的、功能一模一样的、与苹果Pencil一样的电容笔呢？这倒也是。国产的平替笔和苹果Pencil的笔相比，并没…

阅读更多...

Wireless-Sensor-Network-master_WSN_无线传感网络（Matlab代码实现）

Wireless-Sensor-Network-master_WSN_无线传感网络（Matlab代码实现）

目录 💥1 概述 📚2 运行结果 🎉3 参考文献 👨‍💻4 Matlab代码 💥1 概述近年来，随着对等网络、云计算和网格计算等分布式环境的发展，无线传感器网络（WSN&#xff0…

阅读更多...

10分钟吃透，python操作mysql数据库的增、删、改、查

10分钟吃透，python操作mysql数据库的增、删、改、查

大家好，我是csdn的博主：lqj_本人这是我的个人博客主页： lqj_本人的博客_CSDN博客-微信小程序,前端,python领域博主lqj_本人擅长微信小程序,前端,python,等方面的知识https://blog.csdn.net/lbcyllqj?spm1011.2415.3001.5343哔哩哔哩欢迎关注…

阅读更多...

聊聊汽车OTA测试技术方案

聊聊汽车OTA测试技术方案

汽车OTA已成为时下热门话题，由于OTA的升级可能会带来一定的风险，针对OTA的测试就尤为重要。本文我们主要通过介绍OTA的发展背景、汽车OTA测试的必要性以及汽车OTA测试内容，为大家分享一套成熟的OTA测试方案。什么是OTA OTA（Over-…

阅读更多...

以最大速度将数据迁移至AWS S3存储

以最大速度将数据迁移至AWS S3存储

数据上云，已经成为企业数据管理发展的必然趋势。对于企业而言，数据上云“常态化”的趋势，无疑是一个巨大的技术红利。而数据规模爆发式增长的今天，移动和访问云端数据却成为困扰企业的一大难题。不过幸运的是，在对象…

阅读更多...

ES6：promise简单学习

ES6：promise简单学习

一、理解promise Promise将异步执行的程序变成同步执行，所谓的在开发中解决回调嵌套的问题 Promise 是异步编程的一种解决方案从语法上讲，promise是一个对象从它可以获取异步操作的消息从本意上讲，它是承诺，承诺它过一段时间会…

阅读更多...

Java入门超详细(内含Java基础 Java高级)

Java入门超详细(内含Java基础 Java高级)

Java基础入门 - 内含Java基础，Java高级 Java 基本介绍Java 学习须知Java 学习文档Java 基础Java 基础语法Java 对象与类Java 基本数据类型Java 变量类型Java 修饰符Java 运算符Java 循环结构Java 条件语句Java switch caseJava 数组Java 日期与时间Java 正则表达式J…

阅读更多...

Swift AsyncSequence — 代码实例详解

Swift AsyncSequence — 代码实例详解

前言 AsyncSequence 是并发性框架和 SE-298 提案的一部分。它的名字意味着它是一个提供异步、顺序和迭代访问其元素的类型。换句话说：它是我们在 Swift 中熟悉的常规序列的一个异步变体。就像你不会经常创建你的自定义序列一样，我不期望你经常创建一个…

阅读更多...

2022 Jiangsu Collegiate Programming Contest A. PENTA KILL!

2022 Jiangsu Collegiate Programming Contest A. PENTA KILL!

题目链接 Sample 1 Input 10 Bin Guigo Grevthar Bin GALA Grevthar GALA TitaN GALA Guigo GALA Aegis GALA Jojo GALA Grevthar Xiaohu Grevthar GALA Aegis Output PENTA KILL! Sample 3 Input 7 GALA Jojo Aegis Ming GALA Grevthar GALA Grevthar GALA Aegis GALA Guigo…

阅读更多...

树莓派硬件介绍及配件选择

树莓派硬件介绍及配件选择

目录树莓派Datasheet下载地址： Raspberry 4B 外观图： 技术规格书： 性能介绍： 树莓派配件选用电源的选用： 树莓派外壳选用： 内存卡/U盘选用树莓派Datasheet下载地址： Raspberry Pi …

阅读更多...

CompletableFutrue异步处理

CompletableFutrue异步处理

异步处理一、线程的实现方式 1. 线程的实现方式 1.1 继承Thread class ThreadDemo01 extends Thread{Overridepublic void run() {System.out.println("当前线程:" Thread.currentThread().getName());} }1.2 实现Runnable接口 class ThreadDemo02 implements …

阅读更多...

推荐文章

最新文章