Hive数据操纵语言-DML(Load、insert、事务表)

news2025/7/12 11:29:57

1. Load加载数据

1.1 概述

  • 主要为将数据文件移动到Hive表对应的位置,即复制、移动操作

1.2 语法

在这里插入图片描述

1.2.1 filepath

  • 表示待移动数据的路径
  • 文件路径支持下面三种形式,要结合LOCAL关键字一起考虑:
    • 相对路径,例如:project/data1
    • 绝对路径,例如:/user/hive/project/data1
    • 具有schema的完整的URI,例如:hdfs://namenode:9000/user/hive/project/data1

1.2.2 LOCAL

  • 指定LOCAL,将在本地文件系统中查找文件路径。
  • 没有指定LOCAL关键字
    • 如果filepath指向的是一个完整的URI,会直接使用这个URI;
    • 如果没有指定schema,Hive会使用在hadoop配置文件中参数fs.default.name指定的。

1.2.3 OVERWRITE

  • 如果使用了OVERWRITE关键字,则目标表(或者分区)中的已经存在的数据会被删除,然后再将filepath指向的文件/目录中的内容添加到表/分区中。

1.3 练习

建表:

-- 1.1: 建表,从本地加载数据
create table student_local(
    num int,
    name string,
    sex string,
    age int,
    dept string
) row format delimited fields terminated by ',';

-- 1.2: 建表,从HDFS加载数据
create external table student_HDFS(
    num int,
    name string,
    sex string,
    age int,
    dept string
) row format delimited fields terminated by ',';

-- 1.3 建表,从HDFS加载数据到分区表
create table student_HDFS_p (
    num int,
    name string,
    sex string,
    age int,
    dept string
) partitioned by (country string) 
row format delimited fields terminated by  ',';

1.3.1 练习Load Data From Local FS

-- 2. 本地加载数据
load data local inpath '/root/hivedata/students.txt' into table student_local;

在这里插入图片描述

1.3.2 练习Load Data From HDFS

-- 3. 从HDFS加载数据
-- 先将数据上传至HDFS上,hadoop fs -put /root/hivedata/students.txt
load data inpath '/students.txt' into table student_hdfs;

在这里插入图片描述

1.3.3 练习Load Data To Partitoin Table

-- 4. 从HDFS加载数据并制定分区
-- 先将数据上传至HDFS上,hadoop fs -put /root/hivedata/students.txt
load data inpath ![在这里插入图片描述](https://img-blog.csdnimg.cn/abb5a5f688074687a269788174e731d5.png)
'/students.txt' into table student_HDFS_p partition (country = 'China');

在这里插入图片描述

2. insert插入数据

2.1 insert使用方式

2.1.1 insert+value

create table t_test_insert(id int,name string,age int);

insert into table t_test_insert values(1,"allen",18);

select * from t_test_insert;

2.1.2 insert+select

  • insert+select表示:将后面查询返回的结果作为内容插入到指定表中,注意OVERWRITE将覆盖已有数据。
    • 需要保证查询结果列的数目和需要插入数据表格的列数目一致。
    • 如果查询出来的数据类型和插入表格对应的列数据类型不一样,将会进行转换,失败数据将会成为NULL。
  • 语法:
INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement;

INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement;
  • 示例:
--step1:创建一张源表student
drop table if exists student;
create table student(num int,name string,sex string,age int,dept string)
    row format delimited
        fields terminated by ',';
--加载数据
load data local inpath '/root/hivedata/students.txt' into table student;

select * from student;

--step2:创建一张目标表  只有两个字段
create table student_from_insert(sno int,sname string);
--使用insert+select插入数据到新表中
insert into table student_from_insert
select num,name from student;

select *
from student_from_insert;

2.2 多重插入

multiple inserts多重插入

  • 核心功能:一次扫描多次插入
  • 主要目的:减少扫描,在一次扫描中,完成多次insert操作
--当前库下已有一张表student
select * from student;
--创建两张新表
create table student_insert1(sno int);
create table student_insert2(sname string);
--多重插入  一次扫描 多次插入
from student
insert overwrite table student_insert1
select num
insert overwrite table student_insert2
select name;

2.3 动态分区插入

2.3.1 概述

  • 动态分区插入指的是:分区的值是由后续的select查询语句的结果来动态确定的。
  • 根据查询结果自动分区。

2.3.2 示例

  • 首先设置动态分区模式为非严格模式 默认已经开启了动态分区功能
set hive.exec.dynamic.partition = true;
set hive.exec.dynamic.partition.mode = nonstrict;
  • 当前库下已有一张表student
select * from student;

在这里插入图片描述

  • 创建分区表 以sdept作为分区字段
create table student_partition(Sno int,Sname string,Sex string,Sage int) partitioned by(Sdept string);
  • 执行动态分区插入操作
insert into table student_partition partition(Sdept)
select num,name,sex,age,dept from student;
--其中,num,name,sex,age作为表的字段内容插入表中
--dept作为分区字段值
  • 查询验证
    在这里插入图片描述

2.4 Directory导出数据

2.4.1 语法

  • Hive支持将select查询的结果导出成文件存放在文件系统中。语法如下:
--标准语法:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1
    [ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0.11.0)
SELECT ... FROM ...

--Hive extension (multiple inserts):
FROM from_statement
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
    [INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ...

--row_format
: DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]
[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

  • 目录可以是完整的URI。
  • 使用LOCAL关键字,则Hive会将数据写入本地文件系统上的目录。

2.4.2 示例

--当前库下已有一张表student
select * from student;

--1、导出查询结果到HDFS指定目录下
insert overwrite directory '/tmp/hive_export/e1' select num,name,age from student limit 2;

--2、导出时指定分隔符和文件存储格式
insert overwrite directory '/tmp/hive_export/e2' row format delimited fields terminated by ','
    stored as orc
select * from student;

--3、导出数据到本地文件系统指定目录下
insert overwrite local directory '/root/hive_export/e1' select * from student;

3. 事务表

  • 开启事务配置
set hive.support.concurrency = true; --Hive是否支持并发
set hive.enforce.bucketing = true; --从Hive2.0开始不再需要  是否开启分桶功能
set hive.exec.dynamic.partition.mode = nonstrict; --动态分区模式  非严格
set hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager; --
set hive.compactor.initiator.on = true; --是否在Metastore实例上运行启动压缩合并
set hive.compactor.worker.threads = 1; --在此metastore实例上运行多少个压缩程序工作线程。
  • 事务表的创建
CREATE TABLE emp (id int, name string, salary int)
    STORED AS ORC TBLPROPERTIES ('transactional' = 'true');
  • 插入数据
INSERT INTO emp VALUES
                    (1, 'Jerry', 5000),
                    (2, 'Tom',   8000),
                    (3, 'Kate',  6000);
  • 查询验证
select * from emp;
  • 再次插入
INSERT INTO emp VALUES(4, 'Allen', 8000);
  • 删除数据
delete from emp where id =2;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/38502.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

音乐播放

在Qt5中使用Qt Multimedia 模块来实现多媒体应用(音视频播放和控制,相机拍照。收音等)。 使用多媒体模块时需要在pro文件中添加: QT multimedia QMediaPlayer(播放音频) 不追求低延迟的话使用QMediaPlaye…

作业练习3:类的继承

作业练习3:类的继承 面向对象程序设计(C) WHUT-CS 2022 Spring 源码传送门 传送门:https://pan.baidu.com/s/11KwE6tQzC_H-31AFgEWtOg?pwd1111 I.作业目的 本次实验主要在于学习使用C类继承机制实现程序功能。C中的举继承机制能够用于表示类之间的…

Crack:wodXMPP ActiveX 即时通讯组件

wodXMPP ActiveX 组件 XMPP组件,Jabber(ICQ MSN AIM Yahoo GTalk)即时通讯组件 wodXMPP 是 XMPP/Jabber(可扩展消息传递和状态协议)协议的客户端组件。它用于创建轻量级的消息传递客户端,并且除了 wodXMPP 之外不需要其他第 3 方要…

第八章《Java高级语法》第10节:注解

注解可以被理解为一种特殊的注释。普通注释是添加到代码中的人类语言,它可以提高程序的可读性。当源程序被编译为字节码之后,普通注释都会被去除掉,因为这些注释对代码的执行没有任何影响。因此,普通注释只能对代码的阅读者起到帮助。而注释则不同,注释可以对编译器和虚拟…

数字验证学习笔记——UVM学习1

一、类库地图 在SV模块中,验证环境整体的构建,是从底层模块的验证组件搭建到通信和激励生成这些元素无论是软件对象的创建、访问、修改、配置,还是组件之间的通信等都是通过用户自定义的方式来实现的。UVM验证方法学作为之前所有方法学的融合…

ubuntu22.04安装教程

1、选择语言 (默认) 2、取消安装更新 (默认) 3、选择键盘语言 (默认) 4、配置ip,可以直接选择dhcp,也可选择配置静态ip (默认) 5、配置代理 跳过不填写 6、设置镜像源 (默认) https://mirrors.aliyun.com/ubuntu/ 7、磁盘配置,默认即可 (默…

Java_接口使用实例

目录 给对象数组排序 按年龄来比较: 按名字来比较: 尝试自己实现一个 sort 方法 给对象数组排序 class Student {public String name;public int age;public int score;public Student(String name, int age, int score) {this.name name;this…

nginx基础篇

nginx基础篇nginx最小配置解析域名解析常用解析多租户解析Nginx虚拟主机域名配置ServerName匹配规则完整匹配通配符匹配通配符结束匹配正则匹配隧道式模型、网关、代理正向代理&反向代理网关隧道式模式反向代理反向代理一台服务器反向代理多台服务器负载均衡策略动静分离UR…

【微服务】SpringCloud断路器Hystrix

目录 一、断路器Hystrix 1、引入断路器 1.1、依赖 1.2、示例 2、传播安全上下文或使用Spring范围 3、健康指标 4、 Hystrix超时和RibbonClient 一、断路器Hystrix 较低级别的服务中的服务故障可能会导致级联故障,直至服务雪崩。在metrics.rollingStats.timeI…

五、Nacos

文章目录一、安装nacos1.压缩包下载地址2.nacos 中修改端口(8848 端口被占用需要修改)3.启动 nacos:二、nacos项目环境配置三、nacos服务分级存储模型四、NacosRule 实现负载均衡五、服务实例的权重设置六、nacos注册中心一、安装nacos 1.压缩包下载地址 https://…

LeetCode HOT 100 —— 33.搜索旋转排序数组

题目 整数数组 nums 按升序排列&#xff0c;数组中的值 互不相同 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 < k < nums.length&#xff09;上进行了 旋转&#xff0c;使数组变为 [nums[k], nums[k1], …, nums[n-1], nums[0], nums[1], ……

Hive之存储和压缩

Hive系列 第十章 存储和压缩 10.1 首先看一下Hadoop中的压缩 10.1.1 基本概念 1、概念 压缩是一种通过特定的算法来减小计算机文件大小的机制。这种机制是一种很方便的发明&#xff0c;尤其是对网络用户&#xff0c;因为它可以减小文件的字节总数&#xff0c;使文件能够通过…

Linux-yum

Linux下的开发工具即配置基本都要自己手动&#xff0c;和Windows一键式安装相比&#xff0c;Linux软件的安装要复杂很多。 centos 7下&#xff0c;基本的安装方式有三种&#xff1a; 1.源码安装——挺常用的&#xff0c;但是复杂&#xff0c;对初学者来说可以忽略。 2.rpm包安…

FFmpeg的makefile逻辑分析

在开始分析之前&#xff0c;讲一个 makefile 的调试技巧&#xff0c;推荐阅读《如何调试MAKEFILE变量》 make -f Makefile -f vars.mk HOSTPROGS这里我对 vars.mk 做了点修改&#xff0c;因为源 vars.mk 没处理特殊字符&#xff0c;直接 echo 会报错。ffmpeg 的 makefile 的变…

改进粒子滤波的无人机三维航迹预测方法附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;修心和技术同步精进&#xff0c;matlab项目合作可私信。 &#x1f34e;个人主页&#xff1a;Matlab科研工作室 &#x1f34a;个人信条&#xff1a;格物致知。 更多Matlab仿真内容点击&#x1f447; 智能优化算法 …

某公司常见题刷题笔记

LeetCode搞起来&#xff0c;虽说和实际业务没啥联系&#xff0c;但现在就卷起来了&#xff0c;没办法被迫卷起来。 1&#xff0c;滑动平均值&#xff0c;官网 给定窗口大小size&#xff0c;然后每次增加一个值value放入窗口&#xff0c;求此窗口内的平均值 class MovingAver…

李宏毅:Life Long Learning

Life Long Learing 也是continual Learning&#xff0c;也是incremental learning 目录 Life-Long Learning vs Transfer Learning Evaluation Research Directions Selective Synaptic Plasticity——Regulization Based Additional Neural Resourcr Allocation Memo…

Python简介-Python3及环境配置

Python简介 Python是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell)&#xff0c;随着版本的不断更新和语言新功能的添加&#xff0c;越多被用于独立的、大型项目的开发。 Python语…

MFC的YUV播放器实现

MFC的YUV播放器实现 文章目录MFC的YUV播放器实现一、主要参考链接二、开发踩坑记录1、Gdiplus 绘图前置条件2、播放时点击滑竿能精准跳转3、鼠标悬停在滑竿上时显示预览小窗口本文记录使用MFC编写一个YUV播放器的过程&#xff0c;尽量实现播放器都有的常用功能。功能参考与网上…

四旋翼无人机学习第9节--OpenMV以及WIFI电路、供电电路再分析

文章目录0、参考与学习1、OpenMV插座电路2、OpenMV供电电路3、ESP8266电路分析3.0 绘制分享3.1 模块正面图3.2 模块背面图3.3 模块引脚介绍3.4 模块模式选择3.5 芯片手册参考电路4、供电电路分析4.1 电池接口与电源开关部分4.2 usb供电电路与电池电压降压电路4.3 5V降3.3V电路4…