HDFS客户端操作

news2025/5/13 5:49:36

一、命令行工具操作

HDFS 命令行工具基于 hdfs dfs 命令,语法类似 Linux 文件操作。

1. 文件操作

bash

# 创建目录
hdfs dfs -mkdir /test

# 递归创建多级目录
hdfs dfs -mkdir -p /test/data/logs

# 上传本地文件到 HDFS
hdfs dfs -put local_file.txt /test/

# 从 HDFS 下载文件
hdfs dfs -get /test/local_file.txt ./downloaded.txt

# 查看文件内容
hdfs dfs -cat /test/local_file.txt

# 追加内容到文件
echo "new line" | hdfs dfs -appendToFile - /test/local_file.txt
2. 目录操作

bash

# 查看目录内容
hdfs dfs -ls /test

# 递归查看目录
hdfs dfs -ls -R /test

# 删除文件/目录
hdfs dfs -rm /test/file.txt         # 删除文件
hdfs dfs -rm -r /test/data          # 递归删除目录

# 移动/重命名
hdfs dfs -mv /test/file.txt /test/new_file.txt  # 重命名
hdfs dfs -mv /test/data /new_location/          # 移动目录
3. 文件状态与权限

bash

# 查看文件状态
hdfs dfs -stat /test/file.txt

# 查看文件块信息
hdfs fsck /test/file.txt -files -blocks

# 修改权限
hdfs dfs -chmod 755 /test/dir

# 修改所有者
hdfs dfs -chown hadoop:hadoop /test/file.txt
4. 数据均衡

bash

# 启动集群数据均衡(按磁盘使用率)
start-balancer.sh -threshold 10  # 阈值10%

二、Java API 操作

通过 HDFS 的 Java API 可以在代码中操作文件系统。

1. 添加依赖(Maven)

xml

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>3.3.6</version>
</dependency>
2. Java 代码示例

java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;

public class HdfsExample {
    public static void main(String[] args) throws Exception {
        // 配置 HDFS
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://master:9000");
        FileSystem fs = FileSystem.get(conf);

        // 创建目录
        Path dirPath = new Path("/java_api_test");
        if (!fs.exists(dirPath)) {
            fs.mkdirs(dirPath);
            System.out.println("目录创建成功");
        }

        // 上传文件
        Path localPath = new Path("/path/to/local/file.txt");
        Path hdfsPath = new Path("/java_api_test/file.txt");
        fs.copyFromLocalFile(localPath, hdfsPath);
        System.out.println("文件上传成功");

        // 查看目录内容
        FileStatus[] statuses = fs.listStatus(dirPath);
        for (FileStatus status : statuses) {
            System.out.println(status.getPath());
        }

        // 读取文件内容
        FSDataInputStream in = fs.open(hdfsPath);
        BufferedReader reader = new BufferedReader(new InputStreamReader(in));
        String line;
        while ((line = reader.readLine()) != null) {
            System.out.println(line);
        }
        reader.close();

        // 删除文件
        fs.delete(hdfsPath, false);
        System.out.println("文件已删除");

        // 关闭连接
        fs.close();
    }
}

三、WebHDFS REST API

通过 HTTP 请求操作 HDFS(需启用 dfs.webhdfs.enabled)。

1. 创建目录

bash

curl -i -X PUT "http://master:9870/webhdfs/v1/test_dir?op=MKDIRS"
2. 上传文件

bash

curl -i -L -X PUT "http://master:9870/webhdfs/v1/test_dir/file.txt?op=CREATE&overwrite=true" \
  -T /path/to/local/file.txt
3. 查看文件

bash

curl -i "http://master:9870/webhdfs/v1/test_dir/file.txt?op=OPEN"
4. 删除文件

bash

curl -i -X DELETE "http://master:9870/webhdfs/v1/test_dir/file.txt?op=DELETE"

四、常见操作场景

1. 查看文件块位置

bash

hdfs fsck /path/to/file -files -blocks -locations
2. 更改文件副本数

bash

hdfs dfs -setrep 5 /path/to/file  # 设置为5个副本
3. 统计目录大小

bash

hdfs dfs -du -h /path/to/dir  # 以人类可读格式显示
4. 检查集群健康状态

bash

hdfs dfsadmin -report

五、注意事项

  1. 权限问题

    • HDFS 遵循 Unix 风格的权限模型(用户、组、其他)。
    • 操作时需确保用户有足够权限。
  2. 路径规范

    • 绝对路径以 / 开头,相对路径相对于用户的 HDFS 主目录(/user/<username>)。
  3. 性能建议

    • 避免频繁创建小文件(会消耗 NameNode 内存)。
    • 大规模数据传输建议使用 distcp 命令。
  4. 安全模式

    • 当集群处于安全模式时,只能读取不能写入。可通过 hdfs dfsadmin -safemode leave 退出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2374433.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java学习手册:客户端负载均衡

一、客户端负载均衡的概念 客户端负载均衡是指在客户端应用程序中&#xff0c;根据一定的算法和策略&#xff0c;将请求分发到多个服务实例上。与服务端负载均衡不同&#xff0c;客户端负载均衡不需要通过专门的负载均衡设备或服务&#xff0c;而是直接在客户端进行请求的分发…

Docker私有仓库实战:官方registry镜像实战应用

抱歉抱歉&#xff0c;离职后反而更忙了&#xff0c;拖了好久&#xff0c;从4月拖到现在&#xff0c;在学习企业级方案Harbor之前&#xff0c;我们先学习下官方方案registry&#xff0c;话不多说&#xff0c;详情见下文。 注意&#xff1a;下文省略了基本认证 TLS加密&#xff…

Redis+Caffeine构建高性能二级缓存

大家好&#xff0c;我是摘星。今天为大家带来的是RedisCaffeine构建高性能二级缓存&#xff0c;废话不多说直接开始~ 目录 二级缓存架构的技术背景 1. 基础缓存架构 2. 架构演进动因 3. 二级缓存解决方案 为什么选择本地缓存&#xff1f; 1. 极速访问 2. 减少网络IO 3…

【计算机网络】NAT技术、内网穿透与代理服务器全解析:原理、应用及实践

&#x1f4da; 博主的专栏 &#x1f427; Linux | &#x1f5a5;️ C | &#x1f4ca; 数据结构 | &#x1f4a1;C 算法 | &#x1f152; C 语言 | &#x1f310; 计算机网络 上篇文章&#xff1a;以太网、MAC地址、MTU与ARP协议 下篇文章&#xff1a;五种IO模型与阻…

Python训练打卡Day21

常见的降维算法&#xff1a; # 先运行预处理阶段的代码 import pandas as pd import pandas as pd #用于数据处理和分析&#xff0c;可处理表格数据。 import numpy as np #用于数值计算&#xff0c;提供了高效的数组操作。 import matplotlib.pyplot as plt #用于绘…

node .js 启动基于express框架的后端服务报错解决

问题&#xff1a; node .js 用npm start 启动基于express框架的后端服务报错如下&#xff1a; /c/Program Files/nodejs/npm: line 65: 26880 Segmentation fault "$NODE_EXE" "$NPM_CLI_JS" "$" 原因分析&#xff1a; 遇到 /c/Program F…

并发笔记-信号量(四)

文章目录 背景与动机31.1 信号量&#xff1a;定义 (Semaphores: A Definition)31.2 二元信号量 (用作锁) (Binary Semaphores - Locks)31.3 用于排序的信号量 (Semaphores For Ordering)31.4 生产者/消费者问题 (The Producer/Consumer (Bounded Buffer) Problem)31.5 读写锁 (…

【HTOP 使用指南】:如何理解主从线程?(以 Faster-LIO 为例)

htop 是 Linux 下常用的进程监控工具&#xff0c;它比传统的 top 更友好、更直观&#xff0c;尤其在分析多线程或多进程程序时非常有用。 以下截图就是在运行 Faster-LIO 实时建图时的 htop 状态展示&#xff1a; &#x1f50d; 一、颜色说明 白色&#xff08;或亮色&#xf…

数据同步DataX任务在线演示

数据同步DataX任务在线演示 1. 登录系统 访问系统登录页面&#xff0c;输入账号密码完成身份验证。 2. 环境准备 下载datax安装包&#xff0c;并解压到安装目录 3. 集群创建 点击控制台-多集群管理 计算组件添加DataX 配置DataX引擎,Datax.local.path填写安装目录。 4. …

telnetlib源码深入解析

telnetlib 是 Python 标准库中实现 Telnet 客户端协议的模块&#xff0c;其核心是 Telnet 类。以下从 协议实现、核心代码逻辑 和 关键设计思想 三个维度深入解析其源码。 一、Telnet 协议基础 Telnet 协议基于 明文传输&#xff0c;通过 IAC&#xff08;Interpret As Command…

TAPIP3D:持久3D几何中跟踪任意点

简述 在视频中跟踪一个点&#xff08;比如一个物体的某个特定位置&#xff09;听起来简单&#xff0c;但实际上很复杂&#xff0c;尤其是在3D空间中。传统方法通常在2D图像上跟踪像素&#xff0c;但这忽略了物体的3D几何信息和摄像机的运动&#xff0c;导致跟踪不稳定&#xf…

uniapp 生成海报二维码 (微信小程序)

先下载qrcodenpm install qrcode 调用 community_poster.vue <template><view class"poster-page"><uv-navbar title"物业推广码" placeholder autoBack></uv-navbar><view class"community-info"><text clas…

16.Excel:数据收集

一 使用在线协作工具 简道云。 excel的在线表格协作在国内无法使用&#xff0c;而数据采集最需要在线协作。 二 使用 excel 1.制作表格 在使用excel进行数据采集的时候&#xff0c;会制作表头给填写人&#xff0c;最好还制作一个示例。 1.输入提示 当点击某个单元格的时候&am…

AI系列:智能音箱技术简析

AI系列&#xff1a;智能音箱技术简析 智能音箱工作原理详解&#xff1a;从唤醒到执行的AIPipeline-CSDN博客 挑战真实场景对话——小爱同学背后关键技术深度解析 - 知乎 (zhihu.com) AI音箱的原理&#xff0c;小爱同学、天猫精灵、siri。_小爱同学原理-CSDN博客 智能音箱执行步…

BUUCTF——Ezpop

BUUCTF——Ezpop 进入靶场 给了php代码 <?php //flag is in flag.php //WTF IS THIS? //Learn From https://ctf.ieki.xyz/library/php.html#%E5%8F%8D%E5%BA%8F%E5%88%97%E5%8C%96%E9%AD%94%E6%9C%AF%E6%96%B9%E6%B3%95 //And Crack It! class Modifier {protected $v…

三、Hadoop1.X及其组件的深度剖析

作者&#xff1a;IvanCodes 日期&#xff1a;2025年5月7日 专栏&#xff1a;Hadoop教程 一、Hadoop 1.X 概述 &#xff08;一&#xff09;概念 Hadoop 是 Apache 开发的分布式系统基础架构&#xff0c;用 Java 编写&#xff0c;为集群处理大型数据集提供编程模型&#xff0c;…

PDF2zh插件在zotero中安装并使用

1、首先根据PDF2zh说明文档&#xff0c;安装PDF2zh https://github.com/guaguastandup/zotero-pdf2zh/tree/v2.4.0 我没有使用conda&#xff0c;直接使用pip安装pdf2zh &#xff08;Python版本要求3.10 < version <3.12&#xff09; pip install pdf2zh1.9.6 flask pypd…

springboot3+vue3融合项目实战-大事件文章管理系统-更新用户密码

大致分为这三步 首先在usercontroller中增加updatePwd方法 PatchMapping ("/updatePwd")public Result updatePwd(RequestBody Map<String,String> params){//1.校验参数String oldPwd params.get("old_pwd");String newPwd params.get("n…

C++GO语言socket套接字

目录 01 06-socket-client-server通信过程分析 02 07-socket-server-单次处理 03 08-socket-client 01 09-socket-server-多连接建立 02 10-socket-client多次发送数据 01 -socket-client-server通信过程分析 ### - Server Demo接收一个链接&#xff0c;而且只能发送一次数…

WebSocket:实时通信的新时代

在现代Web应用中&#xff0c;实时通信变得越来越重要。传统的HTTP协议虽然能够满足基本的请求-响应模式&#xff0c;但在需要频繁更新数据的场景下&#xff0c;其效率和性能显得捉襟见肘。WebSocket协议应运而生&#xff0c;它提供了一种在单个TCP连接上进行全双工通信的机制&a…