hadoop兼容性验证

news2025/8/3 23:32:28

前言

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题,广义上来说,Hadoop通常是指一个更广泛的概念–hadoop生态圈

Hadoop优缺点:

  • 优点:
    1、高可靠性:Hadoop底层维护多个数据版本,所以即使Hadoop某个计算元素或者存储出现故障,也不会导致数据的丢失
    2、高扩展性:在集群间分配任务数据,可方便的扩展到数以千计的节点上
    3、高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
    4、高容错性:能够自动将失败的任务重新分配

  • 缺点:
    1、不适合低延时数据访问:毫秒级的数据访问
    2、无法高效对大量小文件进行存储:存储大量小文件的话,会占用NameNode大量的内存来存储文件目录和块信息,NameNode的内存总是有限的,小文件的存储的寻址时间会超过读取时间,违反了HDFS的设计目标
    3、不支持并发写入、文件随机修改:一个文件只能有一个写,不允许多个线程同时写;仅支持数据追加,不支持文件的随机修改

参考链接:
https://blog.csdn.net/weixin_43842853/article/details/123007306
https://blog.csdn.net/weixin_52112640/article/details/124907147

一、安装启动

配置java环境
yum install java-1.8.0-openjdk-devel
echo export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk >> /etc/profile
source /etc/profile

创建密钥
ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

下载安装包
mkdir -p /usr/local/hadoop
wget https://mirrors.sonic.net/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz -P /usr/local/hadoop
cd /usr/local/hadoop
tar -xvf hadoop-3.3.4.tar.gz

#配置核心组件core-site.xml

cat <<- EOF > /usr/local/hadoop/hadoop-3.3.4/etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://bogon:9000</value>
    </property>
</configuration>
EOF

#配置文件系统配置文件hdfs-site.xml

cat <<- EOF > /usr/local/hadoop/hadoop-3.3.4/etc/hadoop/hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
EOF

#配置env定义JAVA_HOME路径

sed -i 's!# export JAVA_HOME=!export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk!'  /usr/local/hadoop/hadoop-3.3.4/etc/hadoop/hadoop-env.sh

#hadoop-3.x为了提升安全性,需要指定操作hadoop进程的用户

sed -i "2i HDFS_DATANODE_USER=root\nHDFS_DATANODE_SECURE_USER=hdfs\nHDFS_NAMENODE_USER=root\nHDFS_SECONDARYNAMENODE_USER=root"  /usr/local/hadoop/hadoop-3.3.4/sbin/start-dfs.sh
sed -i "2i YARN_RESOURCEMANAGER_USER=root\nHADOOP_SECURE_DN_USER=yarn\nYARN_NODEMANAGER_USER=root"  /usr/local/hadoop/hadoop-3.3.4/sbin/start-yarn.sh

#格式化文件系统
cd /usr/local/hadoop/hadoop-3.3.4/
bin/hdfs namenode -format
会看到类似如下的输出:

2023-03-07 16:10:47,309 INFO namenode.FSImage: Allocated new BlockPoolId: BP-512421437-10.130.0.73-1678176647285
2023-03-07 16:10:47,333 INFO common.Storage: Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted.
2023-03-07 16:10:47,402 INFO namenode.FSImageFormatProtobuf: Saving image file /tmp/hadoop-root/dfs/name/current/fsimage.ckpt_0000000000000000000 using no compression
2023-03-07 16:10:47,657 INFO namenode.FSImageFormatProtobuf: Image file /tmp/hadoop-root/dfs/name/current/fsimage.ckpt_0000000000000000000 of size 396 bytes saved in 0 seconds .
2023-03-07 16:10:47,689 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2023-03-07 16:10:47,739 INFO namenode.FSNamesystem: Stopping services started for active state
2023-03-07 16:10:47,740 INFO namenode.FSNamesystem: Stopping services started for standby state
2023-03-07 16:10:47,747 INFO namenode.FSImage: FSImageSaver clean checkpoint: txid=0 when meet shutdown.
2023-03-07 16:10:47,748 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at bogon/10.130.0.73
************************************************************/

启动服务
[root@bogon hadoop-3.3.4]# sbin/start-dfs.sh
Starting namenodes on [bogon]
Starting datanodes
Starting secondary namenodes [bogon]
2023-03-07 17:17:19,371 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable

[root@bogon hadoop-3.3.4]# sbin/start-yarn.sh
Starting resourcemanager
Starting nodemanagers

二、查看进程

#如果显示SecondaryNameNode、ResourceManager、NameNode、NodeManager、DataNode 进程代表hadoop服务启动成功

[root@bogon hadoop-3.3.4]# jps
127968 NameNode
128672 ResourceManager
128110 DataNode
128816 NodeManager
128306 SecondaryNameNode
129183 Jps

web端访问
http://本机ip:9870
hadoop

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/394290.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用WebSocket、SockJS、STOMP实现消息实时通讯功能

客户端 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> <html> <head><title>websocket client</title><script src"http://cdn.bootcss.com/sockjs-client/1.1.1/sockjs.min.js"></script>…

Softing smartLink网关——推进过程工业数字化转型

虽然在过程工业中各工厂所投入的运营时间千差万别&#xff0c;但仍需按照新标准来进行有效控制和管理&#xff0c;而这就需要使用一种能够聚合其异构数据的数字通信架构。对此&#xff0c;Softing提供了两种网关解决方案&#xff0c;可用于将过程工业通信架构集成到现有以太网系…

初次使用ESP32-CAM记录

模块的配置和图片 摄像头&#xff1a;8225N V2.0 171026 模块esp-32s 参考资料&#xff1a;https://docs.ai-thinker.com/esp32 配置环境 参考&#xff1a;https://blog.csdn.net/weixin_43794311/article/details/128622558 简单使用需要注意的地方 基本的环境配置和串口…

学习笔记:Java并发编程(补)ThreadLocal

【尚硅谷】学习视频&#xff1a;https://www.bilibili.com/video/BV1ar4y1x727【黑马程序员】学习视频&#xff1a;https://www.bilibili.com/video/BV15b4y117RJ 参考书籍 《实战 JAVA 高并发程序设计》 葛一鸣 著《深入理解 JAVA 虚拟机 | JVM 高级特性与最佳实践》 周志明 著…

大数据项目实战之数据仓库:用户行为采集平台——第3章 用户行为日志

第3章 用户行为日志 3.1 用户行为日志概述 用户行为日志的内容&#xff0c;主要包括用户的各项行为信息以及行为所处的环境信息。收集这些信息的主要目的是优化产品和为各项分析统计指标提供数据支撑。收集这些信息的手段通常为埋点。 目前主流的埋点方式&#xff0c;有代码…

流量与日志分析

文章目录1.流量与日志分析1.1系统日志分析1.1.1window系统日志与分析方法1.1.2linux 系统日志与分析方法1.2 web日志分析iis 日志分析方法apache日志分析**access_log****error_log**nginx日志分析tomcat 日志分析主流日志分析工具使用1.流量与日志分析 日志&#xff0c;是作为…

Dns域名解析服务器

前言 域名解析服务器的介绍 域名服务器的类型划分 DNS域名解析的过程 为什么需要DNS解析域名为IP地址&#xff1f; 通俗理解Dns DNS劫持 DNS污染 Dns面试经验 前言 DNS是一个应用层协议&#xff0c;用来获取域名对应的IP地址 域名解析服务器的介绍 DNS&#xff08;Dom…

大数据技术之HBase(二)HBase原理简介

一、HBase定义1.1 HBase定义HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库非结构化数据存储的数据库&#xff0c;基于列的模式存储。利用Hadoop HDFS作为其文件存储系统&#xff0c;写入性能很强&#xff0c;读取性能较差。利用Hadoop MapReduce来处理HBase中的…

HTTPS简介

HTTPS是HTTP开启TLS传输协议&#xff0c;客户端要拿到服务端的公钥&#xff0c;用公钥加密数据后再进行传输&#xff0c;防止数据泄露后背篡改。它要解决两个问题&#xff1a;怎么保证公钥可信怎么加密数据公钥可信问题客户端从服务端获取公钥的时候&#xff0c;存在请求被拦截…

Spring(一)Spring的7种事务传播行为

目录1.7种事务传播行为2.事务使用示例3.REQUIRES_NEW 事务传播行为使用示例3.1 事务传播图3.2 TUserAServiceImpl.java3.3 TUserBServiceImpl.java1.7种事务传播行为 Spring 中定义了七种事务传播行为&#xff0c;分别是&#xff1a;&#xff08;propagation&#xff1a;n.传播…

RabbitMQ的初始入门与理解

文章目录 目录 文章目录 前言 一、简单介绍 二、使用步骤 2.1 环境配置 2.2 测试使用--java 2.2.1 简单模式 2.2.2 Work queues 工作队列模式 2.2.3 Pub/Sub 订阅模式 2.2.4 Routing 路由模式 总结 前言 MQ全称 Message Queue&#xff08;消息队列&#xff09;&#xff0c…

OperWrt 启动过程03

文章目录 OperWrt 启动过程03OpenWrt启动脚本分析OperWrt 启动过程03 OpenWrt启动脚本分析 内核代码start_kernel函数执行的最后会调用kernel_init函数来启动用户空间的一号进程,标准linux默认是的/etc/init进程,但在OpenWRT里面会执行/etc/preinit,代码如下图992行: 下面…

在SNAP中用sentinel-1数据做InSAR测量,以门源地震为例

在SNAP中用sentinel-1数据做InSAR0 写在前面1 数据下载2 处理步骤2.1 split2.2 apply orbit 导入精密轨道2.3 查看数据的时空基线base line2.4 back-geocoding 配准2.5 Enhanced Spectral Diversity2.6 Deburst2.7 Interogram Formation 生成干涉图2.8 Multilook 多视2.9 Golds…

【Unity】接入Max广告聚合SDK

下载和导入MAX Unity插件&#xff1a; 官方SDK链接 在这里插入图片描述 2.初始化MAX SDK&#xff1a; MaxSdkCallbacks.OnSdkInitializedEvent (MaxSdkBase.SdkConfiguration sdkConfiguration) > {// AppLovin SDK is initialized, start loading ads };MaxSdk.SetSdkK…

JavaScript 高级4 :正则表达式

JavaScript 高级4 &#xff1a;正则表达式 Date: January 19, 2023 Text: 正则表达式、正则表达式特殊字符、正则表达式中的替换 目标&#xff1a; 能够说出正则表达式的作用 能够写出简单的正则表达式 能够使用正则表达式对表单进行验证 能够使用正则表达式替换内容 正则…

渗透测试自动化生成报告——ExportReport

Git仓库&#xff1a; https://github.com/ljy1058318852/ExportReport0x01 概述&#xff1a; 本项目用于自动化生成报告。可根据项目需求&#xff0c;通过简单的提取变量来自定义报告模板。内附常见扫描器API/原报告(awvs、xray、goby)数据提取模块&#xff0c;可直接生成全新…

电影《断网》观后感

上周看了电影《断网》这部电影&#xff0c;题材是网络攻击与防范的故事&#xff0c;这样的题材距离我们很远&#xff0c;又离我们很近&#xff0c;我们每天都在用网络&#xff0c;生活中也离不开网络&#xff0c;所以它离我们很近&#xff0c;但是真正涉及到网络攻击时&#xf…

【00后卷王秘籍】python自动化测试—Python自动化框架及工具

1 、概述 手续的关于测试的方法论&#xff0c;都是建立在之前的文章里面提到的观点&#xff1a; 功能测试不建议做自动化 接口测试性价比最高 接口测试可以做自动化 后面所谈到的 测试自动化 也将围绕着 接口自动化 来介绍。 本系列选择的测试语言是 python 脚本语言。由于其…

为什么99%的程序员都做不好SQL优化?

连接层 最上层是一些客户端和链接服务&#xff0c;包含本地sock 通信和大多数基于客户端/服务端工具实现的类似于 TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程 池的概念&#xff0c;为通过认证安全接入的客户端提供线程。同样…

forEach() 的用法

forEach() 方法用于遍历动态数组中每一个元素并执行特定操作。 forEach&#xff08;回调函数&#xff08;item&#xff09;{}&#xff09; &#xff1a;数组遍历方法 item&#xff1a;指的是数组里的每一项 含义是&#xff1a;遍历数组里的每一项&#xff0c;对每一项执行一次回…