Hadoop 中的大数据技术:调优篇(2)

news2026/4/2 9:50:03

HDFS—存储优化

纠删码
纠删码原理
  • 概述

    HDFS默认情况下,一个文件有3个副本,这虽然提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop 3.x引入了纠删码机制,通过计算方法,可以节省大约50%的存储空间。

  • 纠删码操作命令

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs ec
    Usage: bin/hdfs ec [COMMAND]
              [-listPolicies]
              [-addPolicies -policyFile <file>]
              [-getPolicy -path <path>]
              [-removePolicy -policy <policy>]
              [-setPolicy -path <path> [-policy <policy>] [-replicate]]
              [-unsetPolicy -path <path>]
              [-listCodecs]
              [-enablePolicy -policy <policy>]
              [-disablePolicy -policy <policy>]
              [-help <command-name>].
    
  • 查看支持的纠删码策略

    [lzl@hadoop12 hadoop-3.1.3] hdfs ec -listPolicies
    
  • 策略解释

    RS-3-2-1024k:使用RS编码,每3个数据单元,生成2个校验单元,共5个单元。只要存在任意3个单元(无论是数据单元还是校验单元),就可以恢复原始数据。每个单元大小为1024k。

    RS-10-4-1024k:使用RS编码,每10个数据单元,生成4个校验单元,共14个单元。只要存在任意10个单元,就可以恢复原始数据。每个单元大小为1024k。

    RS-6-3-1024k:使用RS编码,每6个数据单元,生成3个校验单元,共9个单元。只要存在任意6个单元,就可以恢复原始数据。每个单元大小为1024k。

    RS-LEGACY-6-3-1024k:策略与RS-6-3-1024k相同,但使用的编码算法是rs-legacy。

    XOR-2-1-1024k:使用XOR编码(速度比RS编码快),每2个数据单元,生成1个校验单元,共3个单元。只要存在任意2个单元,就可以恢复原始数据。每个单元大小为1024k。

纠删码案例实操
  • 策略应用

    • 纠删码策略是针对具体路径设置的。所有上传到该路径下的文件都将遵循此策略。
  • 具体步骤

    启用RS-3-2-1024k策略支持

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs ec -enablePolicy -policy RS-3-2-1024k
    Erasure coding policy RS-3-2-1024k is enabled
    

    创建HDFS目录并设置策略

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs dfs -mkdir /input
    [lzl@hadoop12 hadoop-3.1.3]$ hdfs ec -setPolicy -path /input -policy RS-3-2-1024k
    

    上传文件并查看存储情况

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs dfs -put web.log /input
    

    注意:上传的文件大小需要大于2M才能看到纠删码的效果(低于2M时,只会有一个数据单元和两个校验单元)。

    1. 查看存储路径的数据单元和校验单元
    2. 破坏实验
异构存储(冷热数据分离)
异构存储Shell操作

查看可用存储策略

[lzl@hadoop12 hadoop-3.1.3]$ hdfs storagepolicies -listPolicies

为指定路径设置存储策略

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx

获取指定路径的存储策略

hdfs storagepolicies -getStoragePolicy -path xxx

取消存储策略

hdfs storagepolicies -unsetStoragePolicy -path xxx

查看文件块的分布

bin/hdfs fsck xxx -files -blocks -locations

查看集群节点

hadoop dfsadmin -report
测试环境准备
  • 环境描述

    服务器规模:5台

    集群配置:副本数为2,创建好带有存储类型的目录(提前创建)

    集群规划:

    节点存储类型分配
    hadoop12RAM_DISK,SSD
    hadoop13SSD,DISK
    hadoop14DISK,RAM_DISK
    hadoop15ARCHIVE
    hadoop16ARCHIVE
  • 配置文件信息

    hadoop12节点

    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.storage.policy.enabled</name>
      <value>true</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[RAM_DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/ram_disk</value>
    </property>
    

    hadoop13节点

    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.storage.policy.enabled</name>
      <value>true</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/disk</value>
    </property>
    

    hadoop14节点

    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.storage.policy.enabled</name>
      <value>true</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>[RAM_DISK]file:///opt/module/hdfsdata/ram_disk,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/disk</value>
    </property>
    

    hadoop15节点

    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.storage.policy.enabled</name>
      <value>true</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>[ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsdata/archive</value>
    </property>
    

    hadoop16节点

    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.storage.policy.enabled</name>
      <value>true</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>[ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsdata/archive</value>
    </property>
    
  • 数据准备

    启动集群

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs namenode -format
    [lzl@hadoop12 hadoop-3.1.3]$ myhadoop.sh start
    

    创建HDFS文件目录

    1[lzl@hadoop12 hadoop-3.1.3]$ hadoop fs -mkdir /hdfsdata
    

    上传文件

    [lzl@hadoop12 hadoop-3.1.3]$ hadoop fs -put /opt/module/hadoop-3.1.3/NOTICE.txt /hdfsdata
    
HOT存储策略案例
  • 获取初始存储策略

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs storagepolicies -getStoragePolicy -path /hdfsdata
    
  • 查看文件块分布

    1[lzl@hadoop12 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations
    
  • 默认存储策略为HOT

WARM存储策略测试
  • 设置WARM存储策略

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy WARM
    
  • 查看文件块分布

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations
    
  • 手动迁移文件块

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs mover /hdfsdata
    
  • 再次查看文件块分布

    [lzl@hadoop12 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations
    
COLD策略测试

设置COLD存储策略

[lzl@hadoop12 hadoop-3.1.3]$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy COLD

手动迁移文件块

[lzl@hadoop12 hadoop-3.1.3]$ hdfs mover /hdfsdata

查看文件块分布

[lzl@hadoop12 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations
ONE_SSD策略测试

设置ONE_SSD存储策略

[lzl@hadoop12 hadoop-3.1.3]$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy One_SSD

手动迁移文件块

[lzl@hadoop12 hadoop-3.1.3]$ hdfs mover /hdfsdata

查看文件块分布

[lzl@hadoop12 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations
ALL_SSD策略测试

设置ALL_SSD存储策略

[lzl@hadoop12 hadoop-3.1.3]$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy All_SSD

手动迁移文件块

[lzl@hadoop12 hadoop-3.1.3]$ hdfs mover /hdfsdata

查看文件块分布

[lzl@hadoop12 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations
LAZY_PERSIST策略测试

设置LAZY_PERSIST存储策略

[lzl@hadoop12 hadoop-3.1.3]$ hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy lazy_persist

手动迁移文件块

[lzl@hadoop12 hadoop-3.1.3]$ hdfs mover /hdfsdata

查看文件块分布

[lzl@hadoop12 hadoop-3.1.3]$ hdfs fsck /hdfsdata -files -blocks -locations

注意事项

  • 当客户端所在的DataNode节点没有RAM_DISK时,文件块将被写入客户端所在的DataNode节点的DISK磁盘,其余副本将写入其他节点的DISK磁盘。

  • 如果客户端所在的DataNode有RAM_DISK,但“dfs.datanode.max.locked.memory”参数值未设置或者设置过小(小于“dfs.block.size”参数值),文件块同样会被写入客户端所在的DataNode节点的DISK磁盘,其余副本将写入其他节点的DISK磁盘。

  • 虚拟机的“max locked memory”限制为64KB,因此,如果参数配置过大,将会报错。

  • 查询“max locked memory”参数

    [lzl@hadoop12 hadoop-3.1.3]$ ulimit -a
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2046732.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java 并发编程】(三) 从CPU缓存开始聊 volatile 底层原理

并发编程 三大问题 在并发编程中&#xff0c;原子性、有序性和可见性是三个重要的问题&#xff0c;解决这三个问题是保证多线程程序正确性的基础。原子性: 指的是一个操作不可分割, 要么全部执行完成, 要么不执行, 不存在执行一部分的情况.有序性: 有序性是指程序的执行顺序与…

Arco Chatter - 改变 Chatter Panel 交互体验的插件

关于 Chatter Panel Arco Chatter 插件是一款专门为 odoo 系统 Chatter Panel 设计的实用工具&#xff0c;它具有改变 Chatter Panel 展开/收起状态和调整 Chatter Panel 宽度的功能。 Arco Chatter 插件主要用于优化用户在 odoo 系统中的操作体验。通过插件功能&#xff0c;用…

【iOS】—— JSONModel

JSONModel源码 1. JSONModel介绍2. JSONModel的其他用法2.1 转换属性名称2.2 自定义错误 3. 源码分析3.1 - (id)initWithDictionary:(NSDictionary*)dict error:(NSError**)err3.2 JSONModel持有的数据3.3 load3.4 JSONModel的init方法3.5 __inspectProperties方法3.6 JSONMode…

动态创建 Delphi 按钮的完整指南:基于配置文件的 `TGridPanel` 实现

在 Delphi 开发中&#xff0c;我们经常需要根据不同的配置动态生成 UI 元素。本文将带你通过一个完整的示例&#xff0c;演示如何根据配置文件动态创建按钮&#xff0c;并将它们排列在一个 TGridPanel 中。每个按钮的标题、链接、颜色和大小都将从配置文件中读取。 “C:\myApp\…

基于YOLOv8-pose的手部关键点检测(1)- 手部关键点数据集获取(数据集下载、数据清洗、处理与增强)

前言 手部姿态估计、手势识别和手部动作识别等任务时&#xff0c;可以转化为对手部关键点的分布状态和运动状态的估计问题。本文主要给出手部关键点数据集获取的方式。 总共获取三个数据集&#xff1a; handpose_v2&#xff1a;训练集35W张&#xff0c;验证集2.85W张&#xff1…

vim - vim模式及部分操作

文章目录 一、vim 基本介绍二、vim 的简单使用三、几种常用模式切换四、命令模式和底行模式的操作汇总 一、vim 基本介绍 vim 是一款多模式的编辑器。vim 中有很多子命令来进行代码的编写操作。 同时&#xff0c;vim 提供了不同的模式供我们选择。 在vim下的底行模式下通过:he…

如何查询婚姻状况信息?

1.使用在线查询工具&#xff1a;‌ 现在&#xff0c;‌也有一些在线查询工具&#xff0c;‌如“天远查”“全能查”等微信小程序&#xff0c;‌提供了婚姻状态查询服务。‌这些工具通常需要你提供一些基本信息&#xff0c;‌并可能收取一定的费用。‌在使用这些工具时&#xff…

WebRTC为何成为视频开发领域的首选技术? EasyCVR视频转码助力无缝视频通信

随着互联网的飞速发展&#xff0c;视频通信已成为日常生活和工作中不可或缺的一部分。从在线教育、视频会议到远程医疗、在线直播&#xff0c;视频开发的需求日益增长。在这些应用场景中&#xff0c;选择何种技术来构建视频系统至关重要。 目前&#xff0c;在很多视频业务的开…

文本纠错实现定位与标记

一、基于讯飞文本纠错实现前端标记定位&#xff0c;点击可以联动&#xff01;

VM下kali设置桥接网络

一、查看主机ip 1.winr输入cmd 2.进入终端输入ipconfig 3.查看ip 二、虚拟机网络设置 1.进入vm的虚拟网络编辑器 2.桥接网卡自己选&#xff0c;1是有线网卡2是无线网卡&#xff0c;选择记得点应用 3.虚拟机的网络适配器也要选择桥接模式 三、kali网络配置 1.打开kali终端编辑文…

基于Spring Boot的库存管理系统

TOC springboot265基于Spring Boot的库存管理系统 绪论 1.1 选题动因 在现在社会&#xff0c;对于信息处理方面&#xff0c;是有很高的要求的&#xff0c;因为信息的产生是无时无刻的&#xff0c;并且信息产生的数量是呈几何形式的增加&#xff0c;而增加的信息如何存储以及…

linux下QOS:理论篇

关于qos &#xff0c;也是linux下面必备功能之一&#xff0c;一般只需要结合iptables/etables/iproute2 和tc配合即可实现大部分功能. 网上讲这么方面的资料很多&#xff0c;大部分都讲tc命令的应用.这里就先从理论入手. QoS&#xff08;Quality of Service&#xff09;服务质…

WSL2 使用usbipd工具 连接USB设备

Connect USB devices | Microsoft Learn 使用开源工具usbipd&#xff0c;可以让usb设备连接WSL https://github.com/dorssel/usbipd-win usbipd list 可以查看连接到win上的设备。 把USB设备从win转移到WSL需要执行下面两个指令。 usbipd bind --busid <BUSID> usb…

Shiro-721 分析

前言 shiro-550漏洞的产生源自硬编码问题&#xff0c;在 1.2.4之前&#xff0c;密钥在代码中是固定的 而在1.2.5 < Apache Shiro < 1.4.1&#xff0c;我们再看AbstractRememberMeManager类&#xff0c;已经修改为生成随机的密钥 在本篇文章中&#xff0c;分析着重于代…

电子电气架构---EEA的发展趋势

我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 屏蔽力是信息过载时代一个人的特殊竞争力&#xff0c;任何消耗你的人和事&#xff0c;多看一眼都是你的不…

RPA自动化流程机器人在财税管理中的作用

随着科技的飞速发展&#xff0c;人工智能和自动化技术正在改变市场竞争的格局&#xff0c;企业对于提高工作效率和准确性的要求日益提高。财税管理作为企业运营管理的核心环节之一&#xff0c;其数字化程度决定了企业发展的速度、广度和深度。因此&#xff0c;财税数字化成为各…

transformer-explainer

安装和启动 找到这个项目&#xff0c;然后装好了。 这个项目的目的如名字。 https://github.com/poloclub/transformer-explainerTransformer Explained: Learn How LLM Transformer Models Work with Interactive Visualization - poloclub/transformer-explainerhttps:/…

【算法】蚁群算法

一、引言 蚁群算法&#xff08;Ant Colony Optimization, ACO&#xff09;是一种模拟蚂蚁觅食行为的启发式搜索算法。它由Marco Dorigo于1992年提出&#xff0c;适用于解决组合优化问题&#xff0c;如旅行商问题&#xff08;TSP&#xff09;、车辆路径问题&#xff08;VRP&…

STM32初识

这边软件使用的是Keil5&#xff0c;主要介绍一下使用的一些注意事项。 创建工程部分&#xff1a; 创建工程方式有两种&#xff1a;使用Keil创建工程模板、 使用STM32CubeMX 新建一个工程 1.新建一个文件&#xff0c;添加文件&#xff1a; DOC工程说明 doc说明文档 Librarie…

联想集团2025届校招网申认知能力SHL测评深度解析

引言 随着联想集团校招季的到来&#xff0c;众多求职者正摩拳擦掌&#xff0c;准备在这场竞争激烈的选拔中脱颖而出。认知能力测评作为选拔过程中的重要环节&#xff0c;其重要性不言而喻。本文将对联想集团校招中使用的认知能力测评进行深度解析&#xff0c;为求职者提供全面而…