hadoop集群安装(四):安装hadoop集群

news2025/8/10 7:53:53

文章目录

  • 说明
  • 分享
  • 环境
  • 节点规划如下
  • 安装hadoop
    • 上传安装包
    • 配置hadoop
      • 配置说明
        • 默认配置
        • 自定义配置
      • 修改配置
        • 修改core-site.xml
        • 修改hdfs-site.xml
        • 修改yarn-site.xml
        • 修改mapred-site.xml
      • 同步配置
    • 添加环境变量并同步
    • 启动hadoop
      • 配置workers文件
      • 格式化集群
      • 启动HDFS
      • 启动yarn
  • 验证
    • 验证hdfs
    • 验证yarn
    • MapReduce
      • yarn 记录
      • hdfs查看结果
  • 总结

说明

现在准备并配置好了服务器,安装好jdk,现在开始安装hadoop集群。

分享

  • 大数据博客列表
  • 开发记录汇总
  • 个人java工具库 项目https://gitee.com/wangzonghui/object-tool
    • 包含json、string、集合、excel、zip压缩、pdf、bytes、http等多种工具,欢迎使用。

环境

  • hadoop 3.3.4 下载地址

节点规划如下

组件\节点hadoop102hadoop103hadoop104
HDFSNameNode、DataNodeDataNodeSecondaryNameNode、DataNode
YarnNodemanagerResourceManager NodeManagerNodeManager

安装hadoop

  • 操作过程使用创建用户操作,这里是前面创建的用户 wang,如遇权限问题,使用 sudo 升级权限

上传安装包

  • 在hadoop102操作,上传hadoop安装包到目录:/opt/software
  • 解压到安装目录:tar -zxvf hadoop-3.3.4.tar.gz /opt/module/

配置hadoop

  • hadoop配置文件分为默认配置和site自定义配置

配置说明

默认配置

  • 默认配置为jar包自带环境配置,具体如下:
默认配置文件hadoop的jar包中位置
core-default.xmlhadoop-common-3.3.4.jar/core-default.xml
hdfs-default.xmlhadoop-hdfs-3.3.4.jar/hdfs-default.xml
yarn-default.xmlhadoop-yarn-common-3.3.4.jar/yarn-default.xml
mapred-default.xmlhadoop-mapreduce-client-core-3.3.4.jar/mapred-default.xml

自定义配置

  • 自定义配置4个分别为:core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml,存储路径为:$HADOOP_HOME/etc/hadoop 路径下。

修改配置

  • 进入hadoop102 配置文件目录:/opt/module/hadoop-3.3.4/etc/hadoop

修改core-site.xml

  • 修改文件:core-site.xmlconfiguration 节点填写内容如下:
<configuration>
  <!-- NameNode 地址设置-->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop102:8020</value>
  </property>

  <!-- 数据存储目录 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-3.2.2/data</value>
  </property>

  <!-- HDFS网页登录静态用户-->
  <property>
    <name>hadoop.http.staticuser.user</name>
    <value>wang</value>
  </property>

</configuration>

修改hdfs-site.xml

  • 修改文件 hdfs-site.xmlconfiguration 节点填写内容如下:
<configuration>
  <!--NameNode web访问地址 -->
  <property>
    <name>dfs.namenode.http-address</name>
    <value>hadoop102:9870</value>
  </property>

  <!--SecondNameNode web访问地址 -->
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop104:9868</value>
  </property>

</configuration>

修改yarn-site.xml

  • 修改文件 yarn-site.xmlconfiguration 节点填写内容如下:
<configuration>
  <!--指定MR走shuffle-->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>

  <!--指定ResourceManager地址-->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop103</value>
  </property>

  <!--继承环境变量-->
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
  </property>

</configuration>

修改mapred-site.xml

  • 修改文件 yarn-site.xmlconfiguration 节点填写内容如下:
<configuration>

  <!--指定MapReduce程序运行在yarn上-->
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>

</configuration>

同步配置

  • hadoop102 配置文件目录:/opt/module/hadoop-3.3.4/etc 执行:xsync hadoop/,同步修改后的文件到hadoop103、hadoop104节点

添加环境变量并同步

  • hadoop102 添加hadoop环境变量,编辑文件:vi /etc/profile.d/my_env.sh ,增加如下内容:
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.4

export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
  • 同步文件:xsync /etc/profile.d/my_env.sh

启动hadoop

  • 新搭建hadoop集群需要先配置 workers,再格式化hadoop集群,最后启动hadoop集群。

配置workers文件

  • hadoop102 编辑workers文件 :vim /opt/module/hadoop-3.3.4/etc/hadoop/workers,设置集群节点信息,添加如下内容:
hadoop102
hadoop103
hadoop104

注意:
文件添加内容结尾不能有空格不能有空行不能有空行

  • 同步配置文件到所有节点:xsync /opt/module/hadoop-3.3.4/etc

格式化集群

  • 如果集群是第一次启动,需要格式化NameNode,hadoop102格式化几圈:hdfs namenode -format

说明

  • 如果集群在运行过程中报错,需要重新格式化NameNode,一定先停止所有Namenode和Datanode进程,再删除所有机器的data和logs目录,再进行格式化。
  • 格式化Namenode会让集群产生新id,如果不清空目录data和logs,新旧id不一致,会造成集群异常。

启动HDFS

  • hadoop102 节点,/opt/module/hadoop-3.3.4 目录下执行:sbin/start-dfs.sh ,启动hdfs

启动yarn

  • yarn部署在hadoop103 ,登录hadoop103,/opt/module/hadoop-3.3.4 目录下执行:sbin/start-yarn.sh

验证

  • 控制台执行 jps,查看java进程,确认服务是否正常启动。
    在这里插入图片描述

验证hdfs

  • 浏览器打开网址:http://192.168.10.102:9870/,确认hdfs服务是否启动正常
    在这里插入图片描述

  • 可以通过 Utilities 菜单子菜单 Browser the file system 网页端操作hdfs文件系统,创建删除目录,增加删除文件。
    在这里插入图片描述

  • 除了网页可以节点控制台通过hadoop命令操作hadoop系统,详细命令介绍参照 hadoop命令 ,大致命令如下:

# 创建目录
hadoop fs -mkdir /input
# 上传文件 
hadoop fs -put  /opt/software/jdk-8u201-linux-x64.tar.gz  /input
# 下载文件到当前目录
hadoop fs -get /opt/software/jdk-8u201-linux-x64.tar.gz
# 删除文件
hadoop fs -rm -f /input/jdk-8u201-linux-x64.tar.gz
# 删除文件夹
hadoop fs -rm -r -f /input

验证yarn

  • 浏览器打开网址:http://192.168.10.103:8088/cluster ,可以看到yarn调到信息页面
    在这里插入图片描述

MapReduce

  • 执行MapReduce任务实例

  • 创建数据源目录:hadoop fs -mkdir /input

  • 创建数据文件:vi word.txt,内容为随意字符换行,实例如:

    sadfssf
    ada
    wof
    ssdd
    
  • 数据文件上传hdfs:hadoop fs -put word.txt /input

  • 执行MapReduce实例任务,统计单词树:hadoop jar /opt/module/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input /output

    • output 为结果输出hdfs目录,不要提前创建目录,MapReduce输出目录不能存在,否则会报错。
      在这里插入图片描述
  • 出现 successfully 表示执行成功。

yarn 记录

  • 打开网址:http://192.168.10.103:8088/cluster,可看到yarn记录
    在这里插入图片描述

hdfs查看结果

  • 打开网址:http://192.168.10.102:9870/,进入output目录,查看MapReduce任务结果。
    在这里插入图片描述

总结

  • 基础版hadoop集群搭建完成,完成整个操作过程,可加深理解hadoop平台运行原理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/33921.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Design Compiler工具学习笔记(6)

目录 引言 知识储备 实际操作 设计源码 仿真源码 VCS执行仿真 DC 综合 引言 本篇继续学习 DC的基本使用。本篇主要学习 DC 综合之后的效果分析&#xff0c;重点在时序分析。 前文链接&#xff1a; Design Compiler工具学习笔记&#xff08;1&#xff09; Design Comp…

【华为上机真题 2022】字符串比较

&#x1f388; 作者&#xff1a;Linux猿 &#x1f388; 简介&#xff1a;CSDN博客专家&#x1f3c6;&#xff0c;华为云享专家&#x1f3c6;&#xff0c;Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我&#xff0c;关注我&#xff0c;有问题私聊&#xff01; &…

Document-level Event Extraction via Parallel Prediction Networks论文解读

Document-level Event Extraction via Parallel Prediction Networks paper&#xff1a;Document-level Event Extraction via Parallel Prediction Networks - ACL Anthology code&#xff1a;HangYang-NLP/DE-PPN (github.com) 期刊/会议&#xff1a;ACL2021 摘要 当在整…

你认为低代码能够完全取代程序猿吗?

前言 最近在接入低代码平台&#xff0c;忙着把功能塞进去&#xff0c;没有时间思考&#x1f914;我们公司也在寻找低代码可以发力的点&#xff0c;所以我做完第一批小白鼠去试验了&#xff0c;我的想法是从一个问题带大家思考&#xff0c;从大方面来讲低代码的作用、应用场景&…

【Linux】基础IO —— 动静态库的制作与使用

&#x1f308;欢迎来到Linux专栏~~动静态库的制作与使用 (꒪ꇴ꒪(꒪ꇴ꒪ )&#x1f423;,我是Scort目前状态&#xff1a;大三非科班啃C中&#x1f30d;博客主页&#xff1a;张小姐的猫~江湖背景快上车&#x1f698;&#xff0c;握好方向盘跟我有一起打天下嘞&#xff01;送给自…

sqli-labs/Less-54

这一关的欢迎界面提示我们可以进行10次尝试注入 但是10次以后就会重置各种信息其中就包括数据库、表格、字段等等 其次提示我们以id作为注入点 首先判断是否属于数字型注入 输入如下 id1 and 12 回显如下 这个回显印证了两件事情 一个是该注入类型不属于数字一个是能够使用联…

强吻雷佳音,公共场合整个身体倾斜头歪向吴京,倪妮这样做合适吗

做人难&#xff0c;做个名人更难。尤其是娱乐圈的明星&#xff0c;有人恨不得拿个放大镜&#xff0c;挖地三尺也要找出毛病。 著名演员倪妮&#xff0c;最近就遭遇了网络暴力&#xff0c;有人说她和吴京玩暧昧&#xff0c;公共场合把头歪向吴京一边。不知道是吃不着葡萄说葡萄酸…

【计算机视觉(CV)】基于高层API实现宝石分类

【计算机视觉&#xff08;CV&#xff09;】基于高层API实现宝石分类 作者简介&#xff1a;在校大学生一枚&#xff0c;华为云享专家&#xff0c;阿里云专家博主&#xff0c;腾云先锋&#xff08;TDP&#xff09;成员&#xff0c;云曦智划项目总负责人&#xff0c;全国高等学校计…

RNN lstm

文章目录什么是RNNRNN工作原理图解多种RNN形态RNN的公式原理pytorch RNN 样例RNN实践lstm 案例踩坑 module ‘torchtext.data‘ has no attribute ‘Field踩坑 en_core_web_sm相关教程什么是RNN 阅读ytb视频莫烦&#xff1a; 什么是循环神经网络 RNN (深度学习)? What is Rec…

SpringBoot 引入 smart-doc 接口文档管理插件,以及统一接口返回

最近在将多个服务端项目的接口进行整合管理&#xff0c;原本使用的是Swagger接口文档管理插件&#xff0c;网上搜了一下类似的插件&#xff0c;发现这个smart-doc插件&#xff0c;似乎挺简约优雅的&#xff0c;而且还可以推送接口文档到Torna&#xff0c;进行统一管理&#xff…

2023-2028年中国硅碳负极材料行业市场预测与投资规划分析报告

本报告由锐观咨询重磅推出&#xff0c;对中国硅碳负极材料行业的发展现状、竞争格局及市场供需形势进行了具体分析&#xff0c;并从行业的政策环境、经济环境、社会环境及技术环境等方面分析行业面临的机遇及挑战。还重点分析了重点企业的经营现状及发展格局&#xff0c;并对未…

kafka学习(七):消息队列与JMS

1、消息队列 我们可以把消息队列比作是一个存放消息的容器&#xff0c;当我们需要使用消息的时候可以取出消息供自己使用。 1.1、消息队列有什么用&#xff1f; 消息队列是分布式系统中重要的组件&#xff0c;使用消息队列主要是为了通过异步处理提高系统性能和削峰、降低系统…

MCE | 神经元为胰腺癌细胞提供营养

胰腺导管腺癌 (PDAC) &#xff0c;最常见的胰腺癌 (Pancreatic cancer) 类型 &#xff0c;是最致命的实体肿瘤之一&#xff0c;具有很高的侵袭性。PDAC 治疗的不良预后与其独特而复杂的微环境和代谢可塑性有关。PDAC 的肿瘤微环境 (TME) 主要成分是细胞外基质 (ECM)、脉管系统、…

tensorflow2 MobileNet

简介 深度学习的发展伴随着模型参数的暴涨&#xff0c;导致对运行模型的设备有很大的限制&#xff0c;普通的卷积神经网络模型难以运用到移动或嵌入式设备中&#xff0c;主要是这些设备的内存有限&#xff0c;其次这些设备的算力不能满足足够的响应速度&#xff0c;即实时性差…

[附源码]java毕业设计疫情期间回乡人员管理系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Swin Transformer目标检测实验——环境配置的步骤和避坑

Swin Transformer1. 网上基础教程&#xff08;带视频讲解&#xff09;2. 配置虚拟环境时遇到的一些问题&#xff08;按操作顺序排列&#xff09;1. 网上基础教程&#xff08;带视频讲解&#xff09; 大家是不是都从b站来的呀&#xff0c;先给你们基础环境的配置和搭配的视频教…

【SQLite】三、SQLite 的常用语法

作者主页&#xff1a;Designer 小郑 作者简介&#xff1a;软件工程师一枚&#xff0c;来自浙江宁波&#xff0c;负责开发管理公司OA项目&#xff0c;专注软件前后端开发&#xff08;Vue、SpringBoot和微信小程序&#xff09;、系统定制、远程技术指导。CSDN学院、蓝桥云课认证讲…

[论文阅读笔记18] DiffusionDet论文笔记与代码解读

扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记. 论文地址: 论文 代码: 代码 0. 扩散模型简述 首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩…

亚马逊鲲鹏系统:批量注册亚马逊买家号软件

之前我们有谈到过&#xff0c;想要注册亚马逊买家号&#xff0c;需要邮箱、ip、信用卡、收货地址和手机号。自己手动注册一个一个的太麻烦&#xff0c;还会花费大量的时间&#xff0c;那么有没有可以节约时间的自动化操作软件呢&#xff1f;想要自动化操作软件&#xff0c;来试…

金属带宽度测量方案

一、硬件部分 1.相机 像素&#xff1a;4864*3232 相机选择 1600 万像素即 4864*3232&#xff0c;即检测视场长宽比为 3&#xff1a;2 工件最大的直径为 320mm&#xff0c;假设检测的视场范围为 510*340 因 此 每 个 像 素 大 小 为 340mm/32800.104mm &#xff0c; 即 检 测 精…