3.5.1MapReduce原理详解

3.5.1MapReduce原理详解

news2025/11/7 10:50:39

单机程序计算流程

输入数据—>读取数据—>处理数据—>写入数据—>输出数据

Hadoop计算流程

input data：输入数据

InputFormat：对数据进行切分，格式化处理

map：将前面切分的数据做map处理(将数据进行分类，输出(k,v)键值对数据)

shuffle&sort:将相同的数据放在一起，并对数据进行排序处理

reduce：将map输出的数据进行hash计算，对每个map数据进行统计计算

OutputFormat：格式化输出数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ScrvzZx0-1687952153332)(/img/mp3.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PQ4XCJQq-1687952153334)(/img/mp4.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z9S9TWoU-1687952153334)(/img/mp5.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FsLSKOUO-1687952153335)(/img/mp6.png)]

map：将数据进行处理

buffer in memory：达到80%数据时，将数据锁在内存上，将这部分输出到磁盘上

partitions：在磁盘上有很多"小的数据"，将这些数据进行归并排序。

merge on disk：将所有的"小的数据"进行合并。

reduce：不同的reduce任务，会从map中对应的任务中copy数据

在reduce中同样要进行merge操作

3.5.2 MapReduce架构

MapReduce架构 1.X
- JobTracker:负责接收客户作业提交，负责任务到作业节点上运行，检查作业的状态
- TaskTracker：由JobTracker指派任务，定期向JobTracker汇报状态，在每一个工作节点上永远只会有一个TaskTracker

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q7LMzsqN-1687952153336)(/img/image-MapReduce4.png)]

MapReduce2.X架构
- ResourceManager：负责资源的管理，负责提交任务到NodeManager所在的节点运行，检查节点的状态
- NodeManager：由ResourceManager指派任务，定期向ResourceManager汇报状态

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/696421.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

怎么写一份好的接口文档？

怎么写一份好的接口文档？

目录前言： 接口文档结构参数说明示例错误码说明语言基调通俗易懂及时更新与维护总结前言： 写一份好的接口文档有助于开发者理解和使用你的API。， 编写一份优秀的接口文档会让软件开发中变得更加轻松，更有效率。…

阅读更多...

一个大于6的偶数,能被两个质数相加得到

一个大于6的偶数,能被两个质数相加得到

一个大于6的偶数,能被两个质数相加得到 1.描述证明：一个大于6的偶数,能被两个质数相加得到 2.代码先判断输入的数据是不是大于6的偶数编写判断某个数是不是质数的方法从中间两侧把数相加看看能不能得到对应的偶数两个奇数相加能够得到的值 public class Main…

阅读更多...

linux入门之进程概念上（冯诺依曼系统，系统概念与定位，PCB，fork初识）

linux入门之进程概念上（冯诺依曼系统，系统概念与定位，PCB，fork初识）

文章目录目录一、认识冯诺依曼系统二、操作系统 1.概念 2.设计os的目的 3.定位 4.如何理解管理三、系统调用和库函数四、进程 1.基本概念 2.描述进程-PCB 3.组织进程 4.查看进程 5.通过系统调用获取进程标识符 6.通过系统调用创建进程-fork初识 6.1fork原理…

阅读更多...

Spring(9) IOC容器中的单例Bean的线程安全问题

Spring(9) IOC容器中的单例Bean的线程安全问题

目录 1.知识点回顾2.线程安全3.总结 1.知识点回顾在 Spring 中我们可以通过 Scope 注解来指定 Bean 的创建方式。 Servcie Scope("singleton") public class UserServiceImpl implements UserService {}Scope 注解的值有两种： singleton：B…

阅读更多...

vue3使用高德地图实现点击获取经纬度

vue3使用高德地图实现点击获取经纬度

话不多说直接上干活在此之前你需要有高德地图的 key，这个自己去申请即可 1，首先需要在终端安装 npm i amap/amap-jsapi-loader --save 2，准备一个容器 <template><div id"container"></div> </templat…

阅读更多...

Redis+Lua脚本解决高并发情况下库存超卖的问题

Redis+Lua脚本解决高并发情况下库存超卖的问题

文章目录一、实现思路二、实现代码一、实现思路二、实现代码 order.lua脚本代码： -- 参数列表 local productIdStr ARGV[1] local productNameStr ARGV[2] local cartQuantityStr ARGV[3] local orderId ARGV[4] local userId ARGV[5] local orderDate A…

阅读更多...

Android 控件颜色与实际不符「解决方案」

Android 控件颜色与实际不符「解决方案」

问题复现背景色设置为绿色，然而 Button 控件却显示紫色解决方案这是由于 Theme 修改导致，只需要修改配置文件 themes.xml 中 parent 属性即可如果找不到该文件，先将工程结构展示改为 Project 即可原配置： <style nam…

阅读更多...

【网络智能化】网络杂谈（9）之如何做到网络管理智能化

【网络智能化】网络杂谈（9）之如何做到网络管理智能化

涉及知识点什么是网络管理智能化，基于专家系统的网络管理，基于智能 Agent 的网络管理，基于计算智能的宽带网络管理，深入了解网络管理智能化技术。原创于：CSDN博主-《拄杖盲学轻声码》，更多内容可去其主页…

阅读更多...

软件业务连续性管理的意义是什么？

软件业务连续性管理的意义是什么？

软件业务连续性管理是指在软件开发和运营过程中，确保业务能够持续进行的管理方法和实践，它是一种综合性的管理方法，旨在确保在软件系统出现故障、灾难或其他不可预测的情况时，能够快速、有效地恢复业务，以最大程度地减…

阅读更多...

$【数据分享】全国县市2000-2021年教育、卫生和社会保障数据（excel\shp格式）$

【数据分享】全国县市2000-2021年教育、卫生和社会保障数据（excel\shp格式）

《中国县域统计年鉴》是一部全面反映我国县域社会经济发展状况的资料性年鉴，收录了上一年度全国2000多个县域单位的基本情况、综合经济、农业、工业、教育、卫生、社会保障等方面的资料。之前基于《中国县域统计年鉴》我们分享了2000至2021年的综合经济数据和农业…

阅读更多...

gitee删除已上传的废弃工程

gitee删除已上传的废弃工程

第一步:打开Git Bash或者右击电脑桌面打开也可以做到第二步:cd到指定的工程文件夹内 dir 看一下，下面的项目是否正确第三步:输入命令 git rm -r 想要删除的项目名称第四步：输入命令 git commit -m 备注第五步：输入命令保存 git pu…

阅读更多...

Day.1 LeetCode刷题练习（最长公共前缀 C/C++两种解法）

Day.1 LeetCode刷题练习（最长公共前缀 C/C++两种解法）

题目： 例子： 分析题目： 主要目的：求出各个字符串的公共前缀思路（本人解法）： 用所给实例来看，不难看出我们可以直接以竖着对应来查看是否是公共前缀 ， 这样就有了一…

阅读更多...

android的PopupWindow透明弹窗

android的PopupWindow透明弹窗

1.要实现这种效果 2.可以使用这种方式 View v LayoutInflater.from(mContext).inflate(R.layout.ceshi_01, null);PopupWindow popupWindow new PopupWindow(v, ViewGroup.LayoutParams.MATCH_PARENT, ViewGroup.LayoutParams.MATCH_PARENT, true);popupWindow.showAsDropDo…

阅读更多...

云原生（第一篇）k8s-组件说明

云原生（第一篇）k8s-组件说明

k8s是什么？ go语言开发的开源的跨主机的容器编排工具；全称是kubernetes； k8s的组件： master： ①kube-apiserver 所有服务统一的访问入口，无论对内还是对外； ②kube-controller-manager 资源控…

阅读更多...

java8新特性---lambda表达式

java8新特性---lambda表达式

1、 Lambda是什么？ Lambda 是一个匿名函数，我们可以把 Lambda表达式理解为是一段可以传递的代码（将代码像数据一样进行传递）。可以写出更简洁、更灵活的代码。作为一种更紧凑的代码风格，使Java的语言表达能力得到了提…

阅读更多...

linux配置git账号密码

linux配置git账号密码

HTTP/HTTPS Linux 在Linux环境下使用http/https协议clone/pull GitLab仓库的代码遇到这个问题。以下解决方案也适合GitHub或其他仓库如码云，coding。解决方案： 在home目录下创建.git-credentials文件vim .git-credentials，输入形如https:…

阅读更多...

重装pycharm后一直在Updating indexes

重装pycharm后一直在Updating indexes

今天卸载pycharm社区版，安装好pycharm专业版之后，右下角一直显示Updating indexes 解决步骤： 先卸载pycharm；打开cmd，键入regedit，打开“注册表编辑器”；在“注册表编辑器”中按ctrlF&#xff…

阅读更多...

spring是如何解析@Transactional属性的

spring是如何解析@Transactional属性的

1、查看value调用发现并无地方调用 2、查看 transactionManager调用发现并无地方调用 3、直接查看transaction被解析方法 SpringTransactionAnnotationParser#parseTransactionAnnotation(java.lang.reflect.AnnotatedElement) 4、查看返回的解析类 Tra…

阅读更多...

C++——二分法求多项式曲线区间极值

C++——二分法求多项式曲线区间极值

二分法求多项式曲线区间极值二分法求解，设置left为左边界，right为右边界，则解一定位于left和right之间，当左右边界之间的差值小于某一精确度时，就认为找到了解。具体操作如下，若是先减后增，首先…

阅读更多...

Unity UGUI 实现一个拖拽一个物体到另一个物体上并返回两个物体是否相交或者是否在对方物体的中心点

Unity UGUI 实现一个拖拽一个物体到另一个物体上并返回两个物体是否相交或者是否在对方物体的中心点

Unity版本 2021.3.25f1c1 首先创建一个碰撞管理器 ColliderNodeManager.cs 具体代码实现如下 using System; using UnityEngine;/// <summary> /// 碰撞检测管理器 /// </summary> public class ColliderNodeManager : MonoBehaviour {public static ColliderN…

阅读更多...

推荐文章

最新文章