五、Hadoop集群部署:从零搭建三节点Hadoop环境(保姆级教程)

news2025/7/19 1:40:03

作者:IvanCodes
日期:2025年5月7日
专栏:Hadoop教程

前言:
想玩转大数据Hadoop集群是绕不开的一道坎。很多小伙伴一看到集群部署就头大各种配置各种坑别慌这篇教程就是你的“救生圈”


一、磨刀不误砍柴工:环境准备(虚拟机与网络)

虚拟机克隆与基础配置 (以VMware为例)

第一步:准备一台基础Linux虚拟机:

你需要一台安装好Linux(推荐CentOS 7 或 Ubuntu 24.04.2/20.04)的虚拟机。确保它已安装常用工具,网络能通。

  • centos 7的详细安装教程可以参考《安装篇–CentOS 7 虚拟机安装》
  • Ubuntu 24.04.2的详细安装教程可以参考《安装篇–Ubuntu24.04.2详细安装教程》
第二步:克隆虚拟机:

1.启动克隆向导: 在VMware Workstation中,右键点击你准备好的虚拟机,选择 “管理” -> “克隆”。

在这里插入图片描述
接着会弹出“欢迎使用克隆虚拟机向导”界面,直接点击“下一步”。
在这里插入图片描述
2.选择克隆源: 默认选择“虚拟机中的当前状态”,直接点击“下一步”。
在这里插入图片描述
3.选择克隆类型: 选择“创建完整克隆”。完整克隆会复制整个虚拟硬盘,确保每台“小鸡”都是独立的,不会相互影响。链接克隆虽然省空间,但不适合我们做集群。点击“下一步”。
在这里插入图片描述
4.命名与存放位置:
在这里插入图片描述

第三步:Windows宿主机VMnet8网卡IP配置

1.在Windows设置中,进入 “网络和 Internet”
2.点击 “高级网络设置”
在这里插入图片描述
3.找到 “VMware Network Adapter VMnet8”,展开它,点击 “查看其他属性”
在这里插入图片描述
4.点击“IP 分配”旁边的“编辑”
在这里插入图片描述
5.在“编辑 IP 设置”中,选择“手动”,打开IPv4,然后填写IP地址(如 192.168.121.1)和子网掩码(255.255.255.0)。网关和DNS对于这个宿主机的虚拟网卡通常不需要填写,或者可以填写VMnet8的网关(192.168.121.2)和你的常用DNS。
在这里插入图片描述

第四步:VMware虚拟网络配置 (关键步骤!)

1.在VMware Workstation主界面,点击菜单栏的 “编辑” -> “虚拟网络编辑器”
在这里插入图片描述
2.在“虚拟网络编辑器”中,你会看到一个网络列表,找到 VMnet8 (通常类型是NAT模式)
3.如果下方的配置选项是灰色的,你需要点击右下角的 “更改设置” 按钮,并可能需要提供管理员权限
在这里插入图片描述
4.选中VMnet8,然后进行以下配置:

4.1.确保连接类型选择 “NAT模式(与虚拟机共享主机的IP地址)”
4.2.取消勾选 “使用本地DHCP服务将IP地址分配给虚拟机”
子网IP: 输入 192.168.121.0
子网掩码: 输入 255.255.255.0
在这里插入图片描述
5.配置NAT设置 (网关):
“网关 IP(G):” 设置为 192.168.121.2
在这里插入图片描述
配置DHCP设置 (定义IP地址范围,可选但推荐检查):
起始 IP 地址(S): 192.168.121.130
结束 IP 地址(E): 192.168.121.255

在这里插入图片描述

第五步:Linux虚拟机静态IP配置 (核心!以CentOS 7为例):

每台Linux虚拟机上,编辑网络配置文件,例如 /etc/sysconfig/network-scripts/ifcfg-ens33 (你的网卡名可能不同)。

 vim /etc/sysconfig/network-scripts/ifcfg-ens33

在这里插入图片描述
hadoop02 的配置:将 IPADDR 改为 192.168.121.132
hadoop03 的配置:将 IPADDR 改为 192.168.121.133

  • 配置源码 (ifcfg-ensXX):
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ensXX
DEVICE=ensXX
ONBOOT=yes
IPADDR=192.168.121.131
NETMASK=255.255.255.0
GATEWAY=192.168.121.2  
DNS1=114.114.114.114    
  • 配置主机映射
  • hadoop01, hadoop02, hadoop03上都执行:
vim /etc/hosts

在这里插入图片描述

  • 修改 hadoop01 的主机名:
hostnamectl set-hostname hadoop01
  • 重启主机
reboot
  • ip a验证ip是否改正
  • 查看网络能否正常ping

在这里插入图片描述

第六步:使用FinalShell连接虚拟机:

在这里插入图片描述
在这里插入图片描述

2. 关闭防火墙和selinux

  • 关闭防火墙:
systemctl stop firewalld
systemctl disable firewalld
  • 关闭SELinux:
vim /etc/selinux/config
# SELINUX=disabled
#需重启虚拟机

在这里插入图片描述

3.配置SSH免密登录 (核心):
hadoop01 中执行:

#验证ssh协议
ps -e | grep sshd
#生成钥匙
ssh-keygen -t rsa
#复制密码发送到其他设备
ssh-copy-id root@hadoop01
ssh-copy-id root@hadoop02
ssh-copy-id root@hadoop03

在这里插入图片描述
在这里插入图片描述

4.时间同步 (NTP):

yum install -y ntp
systemctl start ntpd
systemctl enable ntpd

在这里插入图片描述
在这里插入图片描述

5. 安装Java JDK

# 创建存放软件和安装包的目录
mkdir -p /export/server /export/softwares

5.1.上传并解压JDK安装包:
将你准备好的 jdk-8u361-linux-x64.tar.gz 文件,通过 FinalShell 的上传功能(或者其他sftp工具),上传到三台虚拟机/export/softwares/ 目录下。

进入 /export/server/ 目录,并解压 JDK 安装包:

cd /export/server/ # 进入我们计划安装软件的目录
# 解压 JDK 安装包
tar -xzf /export/softwares/jdk-8u361-linux-x64.tar.gz
# 解压后通常会得到一个名为 jdk1.8.0_361 的目录,用ls确认一下
ls /export/server/

在这里插入图片描述

5.2.配置 JAVA_HOME 环境变量:
每台机器上,编辑环境变量文件 ~/.bashrc

vim ~/.bashrc

在这里插入图片描述

export JAVA_HOME=/export/server/jdk1.8.0_361 # 注意这里的路径和解压出来的目录名一致
export PATH=$PATH:$JAVA_HOME/bin
source ~/.bashrc

在这里插入图片描述

二、Hadoop 安装与配置

1. 解压Hadoop到指定目录 (/export/server/)

  • 上传Hadoop安装包:hadoop-3.3.4.tar.gz 安装包,通过 FinalShell 上传到三台虚拟机/export/softwares/ 目录下。

  • 解压Hadoop到 /export/server/ 并重命名:

# 解压 Hadoop 安装包
tar -xzf /export/softwares/hadoop-3.3.4.tar.gz
# 为了方便,我们把它重命名为简洁的 hadoop
mv hadoop-3.3.4 hadoop

在这里插入图片描述

2. 配置Hadoop环境变量

编辑~/.bashrc 文件,追加 Hadoop 相关的环境变量:

vim ~/.bashrc

在这里插入图片描述

在文件末尾添加:

export HADOOP_HOME=/export/server/hadoop # 注意这里的路径是自定义安装路径
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin # 将 Hadoop 的命令加入到 PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop # 指定 Hadoop 配置文件的位置
export HADOOP_LOG_DIR=$HADOOP_HOME/logs # 指定 Hadoop 日志文件的位置

让环境变量生效:

source ~/.bashrc

在这里插入图片描述

3. 修改Hadoop核心配置文件 (重点)

主要在 hadoop01 上修改,然后分发给其他节点。

  • (A) hadoop-env.sh (所有节点一致修改)
    • 这个文件主要配置 Hadoop 运行的环境,比如指定 Java。
cd /export/server/hadoop/etc/hadoop/
vim hadoop-env.sh
export JAVA_HOME=/export/server/jdk1.8.0_361 
export HDFS_NAMENODE_USER="root"
export HDFS_DATANODE_USER="root"
export HDFS_SECONDARYNAMENODE_USER="root"
export YARN_RESOURCEMANAGER_USER="root"
export YARN_NODEMANAGER_USER="root"

在这里插入图片描述

在这里插入图片描述

  • (B) core-site.xml (所有节点一致修改)
    • 这是 Hadoop 的核心配置文件,配置HDFS的地址、临时文件目录等。
vim /core-site.xml
<configuration>
    <!-- 指定HDFS中NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop01:9000</value>
    </property>
    <!-- 指定Hadoop运行时产生文件的存储目录,比如MapReduce的临时数据 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/export/data/hadoop</value> <!-- 修改为自定义路径下的临时数据目录 -->
    </property>
    <!-- (可选但推荐) 用于WebHDFS和HTTPFS的用户模拟配置,让指定用户(这里是hadoopuser)可以模拟其他用户 -->
    <property>
        <name>hadoop.proxyuser.hadoopuser.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoopuser.groups</name>
        <value>*</value>
    </property>
<!-- 整合hive 用户代理设置 -->
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>
</configuration>
  • © hdfs-site.xml (所有节点一致修改)
    • 这个文件配置 HDFS 的具体参数,比如副本数量、NameNode和DataNode数据存放位置等。
vim hdfs-site.xml
<configuration>
    <!-- NameNode的Web UI访问地址 (Hadoop 3.x默认端口9870) -->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop01:9870</value>
    </property>
    <!-- SecondaryNameNode的Web UI访问地址 (Hadoop 3.x默认端口9868) -->
    <property>
        <name>dfs.secondary.http-address</name>
        <value>hadoop01:9868</value> <!-- 我们也让它在hadoop01上 -->
    </property>
    <!-- SecondaryNameNode所在的主机和端口,NameNode会向它发送元数据 -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop01:9868</value>
    </property>
    <!-- HDFS副本数量,我们有3个节点,可以设置为2或3。这里先设为2,至少保证有两个DataNode时数据有冗余 -->
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <!-- NameNode元数据(fsimage和editlog)存放的本地磁盘路径 -->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/export/server/hadoop/dfs_data/name</value> <!-- 修改为自定义路径 -->
    </property>
    <!-- DataNode数据块存放的本地磁盘路径 -->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/export/server/hadoop/dfs_data/data</value> <!-- 修改为自定义路径 -->
    </property>
    <!-- 开启WebHDFS功能,可以通过HTTP访问HDFS文件 -->
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>
  • (D) yarn-site.xml (所有节点一致修改)
    • 这是 YARN (资源管理器) 的配置文件。
vim yarn-site.xml
<configuration>
    <!-- 指定YARN的ResourceManager(RM)的主机名 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop01</value>
    </property>
    <!-- NodeManager上运行的附属服务,MapReduce Shuffle是必须的 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- ResourceManager的Web UI访问地址 (默认端口8088) -->
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>hadoop01:8088</value>
    </property>
    <!-- (可选) 开启日志聚集功能,方便在Web UI上查看已完成任务的日志 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!-- MapReduce JobHistory Server 的日志服务地址 -->
    <property>
        <name>yarn.log.server.url</name>
        <value>http://hadoop01:19888/jobhistory/logs</value> <!-- 指向JobHistoryServer的Web UI -->
    </property>
    <!-- (可选) 日志保留时间 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value> <!-- 日志保留7天 (604800秒) -->
    </property>
</configuration>
  • (E) mapred-site.xml (所有节点一致修改)
    • 这个文件配置 MapReduce 的运行时框架和 JobHistory Server。
vim mapred-site.xml
<configuration>
    <!-- 指定MapReduce作业运行在YARN上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <!-- MapReduce JobHistory Server 地址 -->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop01:10020</value>
    </property>
    <!-- MapReduce JobHistory Server Web UI 地址 (默认端口19888) -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop01:19888</value>
    </property>
    <!-- (Hadoop 3.x需要) 使YARN能够正确找到和分发MapReduce相关的JAR包 -->
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
    </property>
    <property>
        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
    </property>
    <property>
        <name>mapreduce.reduce.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
    </property>
</configuration>
  • (F) workers 文件 (仅在 hadoop01 上修改,然后分发)
    • 这个文件告诉 start-dfs.shstart-yarn.sh 脚本,需要在哪些机器上启动 DataNode 和 NodeManager 进程。
vim workers
hadoop01
hadoop02
hadoop03

4. 分发配置文件 (在 hadoop01 上执行)

好了,配置文件修改完了。把 hadoop01 上的配置文件同步到 hadoop02hadoop03 去。

  • 确保你在 hadoopuser 用户下,且在 $HADOOP_HOME/etc/ 目录下(也就是 /export/server/hadoop/etc/)。
cd /export/server
scp ~/.bashrc hadoop02:~/.bashrc
scp ~/.bashrc hadoop03:~/.bashrc
#传完之后要在hadoop02和hadoop03上分别执行 source /etc/profile 命令,来刷新配置文件
scp -r hadoop hadoop02:$PWD
scp -r jdk1.8.0_361 hadoop02:$PWD
scp -r hadoop hadoop03:$PWD
scp -r jdk1.8.0_361 hadoop03:$PWD

5.验证是否成功
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2375899.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电流检测放大器的优质选择XBLW-INA180/INA181

前言&#xff1a; 在当前复杂的国际贸易环境下&#xff0c;关税的增加使得电子元器件的采购成本不断攀升&#xff0c;电子制造企业面临着巨大的成本压力。为了有效应对这一挑战&#xff0c;实现国产化替代已成为众多企业降低生产成本、保障供应链稳定的关键战略。对此芯伯乐推出…

# 深度剖析LLM的“大脑”:单层Transformer的思考模式探索

简单说一下哈 —— 咱们打算训练一个单层 Transformer 加上稀疏自编码器的小型百万参数大型语言模型&#xff08;LLM&#xff09;&#xff0c;然后去调试它的思考过程&#xff0c;看看这个 LLM 的思考和人类思考到底有多像。 LLMs 是怎么思考的呢&#xff1f; 开源 LLM 出现之后…

【C++】类与对象【下】

文章目录 再谈构造函数构造函数的赋值构造函数体赋值&#xff1a;初始化列表explicit关键字 static成员概念特性 C11中成员初始化的新玩法友元友元类 内部类概念 再谈构造函数 构造函数的赋值 构造函数体赋值&#xff1a; 在创建对象时&#xff0c;编译器会通过调用构造函数…

无人机避障——如何利用MinumSnap进行对速度、加速度进行优化的轨迹生成(附C++python代码)

&#x1f525;轨迹规划领域的 “YYDS”——minimum snap&#xff01;作为基于优化的二次规划经典&#xff0c;它是无人机、自动驾驶轨迹规划论文必引的 “开山之作”。从优化目标函数到变量曲线表达&#xff0c;各路大神疯狂 “魔改”&#xff0c;衍生出无数创新方案。 &#…

Llama:开源的急先锋

Llama:开源的急先锋 Llama1&#xff1a;开放、高效的基础语言模型 Llama1使用了完全开源的数据&#xff0c;性能媲美GPT-3&#xff0c;可以在社区研究开源使用&#xff0c;只是不能商用。 Llama1提出的Scaling Law 业内普遍认为如果要达到同一个性能指标&#xff0c;训练更…

“redis 目标计算机积极拒绝,无法连接” 解决方法,每次开机启动redis

如果遇到以上问题 先打开“服务” 找到App Readiness 右击-启动 以管理员身份运行cmd&#xff0c;跳转到 安装redis的目录 运行&#xff1a;redis-server.exe redis.windows.conf 以管理员身份打开另一cmd窗口&#xff0c;跳转到安装redis的目录 运行&#xff1a;redis-…

LeetCode 热题 100 35.搜索插入位置

目录 题目&#xff1a; 题目描述&#xff1a; 题目链接&#xff1a; 思路&#xff1a; 核心思路&#xff1a; 思路详解&#xff1a; 代码&#xff1a; Java代码&#xff1a; 题目&#xff1a; 题目描述&#xff1a; 题目链接&#xff1a; 35. 搜索插入位置 - 力扣&…

从 “学会学习” 到高效适应:元学习技术深度解析与应用实践

一、引言&#xff1a;当机器开始 “学会学习”—— 元学习的革命性价值 在传统机器学习依赖海量数据训练单一任务模型的时代&#xff0c;元学习&#xff08;Meta Learning&#xff09;正掀起一场范式革命。 这项旨在让模型 “学会学习” 的技术&#xff0c;通过模仿人类基于经验…

AI开发者的算力革命:GpuGeek平台全景实战指南(大模型训练/推理/微调全解析)

目录 背景一、AI工业化时代的算力困局与破局之道1.1 中小企业AI落地的三大障碍1.2 GpuGeek的破局创新1.3 核心价值 二、GpuGeek技术全景剖析2.1 核心架构设计 三、核心优势详解‌3.1 优势1&#xff1a;工业级显卡舰队‌‌‌3.2 优势2&#xff1a;开箱即用生态‌3.2.1 预置镜像库…

AWS SNS:解锁高并发消息通知与系统集成的云端利器

导语 在分布式系统架构中&#xff0c;如何实现高效、可靠的消息通知与跨服务通信&#xff1f;AWS Simple Notification Service&#xff08;SNS&#xff09;作为全托管的发布/订阅&#xff08;Pub/Sub&#xff09;服务&#xff0c;正在成为企业构建弹性系统的核心组件。本文深度…

【PmHub后端篇】PmHub集成 Sentinel+OpenFeign实现网关流量控制与服务降级

在微服务架构中&#xff0c;保障服务的稳定性和高可用性至关重要。本文将详细介绍在 PmHub 中如何利用 Sentinel Gateway 进行网关限流&#xff0c;以及集成 Sentinel OpenFeign 实现自定义的 fallback 服务降级。 1 熔断降级的必要性 在微服务架构中&#xff0c;服务间的调…

2025最新出版 Microsoft Project由入门到精通(八)

目录 查找关键路径方法 方法1:格式->关键任务 方法2:插入关键属性列 方法3&#xff1a;插入“可宽延的总时间”进行查看&#xff0c;>0不是关键路径&#xff0c;剩余的全是关键路径 方法4:设置关键路径的工作表的文本样式​编辑 方法5&#xff1a;突出显示/筛选器…

3.0/Q2,Charls最新文章解读

文章题目&#xff1a;Development of a visualized risk prediction system for sarcopenia in older adults using machine learning: a cohort study based on CHARLS DOI&#xff1a;10.3389/fpubh.2025.1544894 中文标题&#xff1a;使用机器学习开发老年人肌肉减少症的可视…

使用matlab进行数据拟合

目录 一、工作区建立数据 二、曲线拟合器(在"APP"中) 三、曲线拟合函数及参数 四、 在matlab中编写代码 一、工作区建立数据 首先&#xff0c;将数据在matlab工作区中生成。如图1所示&#xff1a; 图 1 二、曲线拟合器(在"APP"中) 然后&#xff0c;…

分布式1(cap base理论 锁 事务 幂等性 rpc)

目录 分布式系统介绍 一、定义与概念 二、分布式系统的特点 三、分布式系统面临的挑战 四、分布式系统的常见应用场景 CAP 定理 BASE 理论 BASE理论是如何保证最终一致性的 分布式锁的常见使用场景有哪些&#xff1f; 1. 防止多节点重复操作 2. 资源互斥访问 3. 分…

Myshell与清华联合开源TTS模型OpenVoiceV2,多语言支持,风格控制进一步增强~

项目背景 开发团队与发布 OpenVoice2 由 MyShell AI&#xff08;加拿大 AI 初创公司&#xff09;与 MIT 和清华大学的研究人员合作开发&#xff0c;技术报告于 2023 年 12 月发布 &#xff0c;V2 版本于 2024 年 4 月发布 。 项目目标是提供一个高效、灵活的语音克隆工具&…

YOLO11解决方案之热力图探索

概述 Ultralytics提供了一系列的解决方案,利用YOLO11解决现实世界的问题,包括物体计数、模糊处理、热力图、安防系统、速度估计、物体追踪等多个方面的应用。 使用YOLO11生成的热力图把复杂的数据转换成生动的彩色编码矩阵。这种可视化工具采用色谱来表示不同的数据值,暖色…

如何在终端/命令行中把PDF的每一页转换成图片(PNG)

今天被对象安排了一个任务&#xff1a; 之前自己其实也有这个需要&#xff0c;但是吧&#xff0c;我懒&#xff1a;量少拖拽&#xff0c;量大就放弃。但这次躲不过去了&#xff0c;所以研究了一下有什么工具可以做到这个需求。 本文记录我这次发现的使用 XpdfReader 的方法。…

计算机系统结构——Cache性能分析

一、实验目的 加深对Cache的基本概念、基本组织结构以及基本工作原理的理解。掌握Cache容量、相联度、块大小对Cache性能的影响。掌握降低Cache不命中率的各种方法以及这些方法对提高Cache性能的好处。理解LRU与随机法的基本思想以及它们对Cache性能的影响。 二、实验平台 实…