Hive之函数

news2025/7/11 5:27:44

Hive之函数


第九章 函数

9.1 系统内置函数

在这里插入图片描述

9.1.1 理论

查看内置函数: show functions;
显示函数的详细信息: desc function abs;
显示函数的扩展信息: desc function extended concat;

一、关系运算:  
1. 等值比较: =  
2. 等值比较:<=>  
3. 不等值比较: <>和!=  
4. 小于比较: <  
5. 小于等于比较: <=  
6. 大于比较: >  
7. 大于等于比较: >=  
8. 区间比较  
9. 空值判断: IS NULL  
10. 非空判断: IS NOT NULL  
11.  LIKE 比较: LIKE  
12.  JAVA 的 LIKE 操作: RLIKE  
13.  REGEXP 操作: REGEXP 

二、数学运算:   
1. 加法操作: +  
2. 减法操作: –  
3. 乘法操作: *  
4. 除法操作: /  
5. 取余操作: %  
6. 位与操作: &  
7. 位或操作: |  
8. 位异或操作: ^  
9.位取反操作: ~ 

三、逻辑运算:    
1. 逻辑与操作: AND 、&&  
2. 逻辑或操作: OR 、||  
3. 逻辑非操作: NOT、! 

四、复合类型构造函数      
1.  map 结构  
2.  struct 结构  
3.  named_struct 结构  
4.  array 结构  
5.  create_union 

五、复合类型操作符   
1. 获取 array 中的元素  
2. 获取 map 中的元素  
3. 获取 struct 中的元素 

六、数值计算函数    
1. 取整函数: round  
2. 指定精度取整函数: round  
3. 向下取整函数: floor  
4. 向上取整函数: ceil  
5. 向上取整函数: ceiling  
6. 取随机数函数: rand  
7. 自然指数函数: exp  
8. 以 10 为底对数函数: log10  
9. 以 2 为底对数函数: log2  
10. 对数函数: log  
11. 幂运算函数: pow  
12. 幂运算函数: power  
13. 开平方函数: sqrt  
14. 二进制函数: bin  
15. 十六进制函数: hex  
16. 反转十六进制函数: unhex  
17. 进制转换函数: conv  
18. 绝对值函数: abs  
19. 正取余函数: pmod  
20. 正弦函数: sin  
21. 反正弦函数: asin  
22. 余弦函数: cos  
23. 反余弦函数: acos  
24.  positive 函数: positive  
25.  negative 函数: negative 

七、集合操作函数      
1.  map 类型大小:size  
2.  array 类型大小:size  
3. 判断元素数组是否包含元素:array_contains  
4. 获取 map 中所有 value 集合  
5. 获取 map 中所有 key 集合  
6. 数组排序 

八、类型转换函数   
1. 二进制转换:binary  
2. 基础类型之间强制转换:cast 

九、日期函数     
1.  UNIX 时间戳转日期函数: from_unixtime  
2. 获取当前 UNIX 时间戳函数: unix_timestamp  
3. 日期转 UNIX 时间戳函数: unix_timestamp  
4. 指定格式日期转 UNIX 时间戳函数: unix_timestamp 
5. 日期时间转日期函数: to_date  
6. 日期转年函数: year  
7. 日期转月函数: month  
8. 日期转天函数: day  
9. 日期转小时函数: hour  
10. 日期转分钟函数: minute  
11. 日期转秒函数: second  
12. 日期转周函数: weekofyear  
13. 日期比较函数: datediff  
14. 日期增加函数: date_add  
15. 日期减少函数: date_sub 
 

十、条件函数     
1.  If 函数: if  
2. 非空查找函数: COALESCE  
3. 条件判断函数:CASE 

十一、字符串函数    
1. 字符 ascii 码函数:ascii  
2. base64 字符串  
3. 字符串连接函数:concat  
4. 带分隔符字符串连接函数:concat_ws  
5. 数组转换成字符串的函数:concat_ws  
6. 小数位格式化成字符串函数:format_number  
7. 字符串截取函数:substr,substring  
8. 字符串截取函数:substr,substring  
9. 字符串查找函数:instr  
10. 字符串长度函数:length  
11. 字符串查找函数:locate  
12. 字符串格式化函数:printf  
13. 字符串转换成 map 函数:str_to_map  
14.  base64 解码函数:unbase64(string str)  
15. 字符串转大写函数:upper,ucase  
16. 字符串转小写函数:lower,lcase  
17. 去空格函数:trim  
18. 左边去空格函数:ltrim  
19. 右边去空格函数:rtrim  
20. 正则表达式替换函数:regexp_replace  
21. 正则表达式解析函数:regexp_extract  
22.  URL 解析函数:parse_url  
23.  json 解析函数:get_json_object  
24. 空格字符串函数:space  
25. 重复字符串函数:repeat  
26. 左补足函数:lpad 
27. 右补足函数:rpad  
28. 分割字符串函数: split  
29. 集合查找函数: find_in_set  
30. 分词函数:sentences  
31. 分词后统计一起出现频次最高的 TOP-K  
32. 分词后统计与指定单词一起出现频次最高的 TOP-K 

十二、混合函数    
1. 调用 Java 函数:java_method  
2. 调用 Java 函数:reflect  
3. 字符串的 hash 值:hash 

十三、XPath 解析 XML 函数     
1. xpath  
2. xpath_string  
3. xpath_boolean  
4. xpath_short, xpath_int, xpath_long  
5. xpath_float, xpath_double, xpath_number 

十四、汇总统计函数(UDAF) 
1. 个数统计函数: count  
2. 总和统计函数: sum  
3. 平均值统计函数: avg  
4. 最小值统计函数: min  
5. 最大值统计函数: max  
6. 非空集合总体变量函数: var_pop  
7. 非空集合样本变量函数: var_samp  
8. 总体标准偏离函数: stddev_pop  
9. 样本标准偏离函数: stddev_samp  
10.中位数函数: percentile  
11. 中位数函数: percentile  
12. 近似中位数函数: percentile_approx  
13. 近似中位数函数: percentile_approx  
14. 直方图: histogram_numeric  
15. 集合去重数:collect_set  
16. 集合不去重函数:collect_list 

十五、表格生成函数 Table-Generating Functions (UDTF) 
1.数组拆分成多行:explode(array)  
2.Map 拆分成多行:explode(map) 

9.1.2 实践操作

1、查看系统自带的函数
hive (mydb)> show functions;
3、显示自带的函数的用法
hive (mydb)> desc function date_add;
hive (myhivedb2)> desc function extended date_add;
hive (mydb)> select date_add('2021-08-14',-1);
OK
_c0
2021-08-13
Time taken: 0.678 seconds, Fetched: 1 row(s)

3、详细显示自带的函数的用法
desc function extended date_add;

4、一些其他的常见的操作
hive> select if(true,'a','b');
OK
a
Time taken: 0.02 seconds, Fetched: 1 row(s)
hive> select if(false,'a','b');
OK
b
Time taken: 0.02 seconds, Fetched: 1 row(s)
hive> select date_sub('2021-08-14',1);
OK
2021-08-13
Time taken: 0.03 seconds, Fetched: 1 row(s)
hive> select date_add('2021-08-14',-1);
OK
2021-08-13
Time taken: 0.031 seconds, Fetched: 1 row(s)
hive> select concat_ws("_","lisi","wangwu","zhaoliu");
OK
lisi_wangwu_zhaoliu
Time taken: 0.021 seconds, Fetched: 1 row(s)
hive> select concat_ws("_","lisi","wangwu");
OK
lisi_wangwu
Time taken: 0.041 seconds, Fetched: 1 row(s)
hive> select concat("_","lisi","wangwu");
OK
_lisiwangwu
Time taken: 0.019 seconds, Fetched: 1 row(s)
hive> desc function extended coalesce;
OK
coalesce(a1, a2, ...) - Returns the first non-null argument
Example:
  > SELECT coalesce(NULL, 1, NULL) FROM src LIMIT 1;
  1
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFCoalesce
Function type:BUILTIN
Time taken: 0.002 seconds, Fetched: 6 row(s)
hive> SELECT coalesce(NULL, 1, NULL);
OK
1
Time taken: 0.036 seconds, Fetched: 1 row(s)
hive> SELECT coalesce(8, 1, NULL);
OK
8
Time taken: 0.015 seconds, Fetched: 1 row(s)
hive> desc function extended array;
OK
array(n0, n1...) - Creates an array with the given elements 
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFArray
Function type:BUILTIN
Time taken: 0.002 seconds, Fetched: 3 row(s)
hive> select array(1,2,3,4);
OK
[1,2,3,4]
Time taken: 0.031 seconds, Fetched: 1 row(s)
hive> select explode(array(1,2,3,4));
OK
1
2
3
4
Time taken: 0.031 seconds, Fetched: 4 row(s)
hive> desc function extended map;
OK
map(key0, value0, key1, value1...) - Creates a map with the given key/value pairs 
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFMap
Function type:BUILTIN
Time taken: 0.005 seconds, Fetched: 3 row(s)
hive> select map("a",1,"b",2,"c",3);
OK
{"a":1,"b":2,"c":3}
Time taken: 0.036 seconds, Fetched: 1 row(s)
hive> select explode(map("a",1,"b",2,"c",3));
OK
a	1
b	2
c	3
Time taken: 0.045 seconds, Fetched: 3 row(s)

9.2 自定义函数

官方文档参考:https://cwiki.apache.org/confluence/display/Hive/HivePlugins

当 Hive 提供的内置函数无法满足业务处理需要时,此时就可以考虑使用用户自定义函数
UDF(User-Defined Function)作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)
UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。(count,max)
UDTF(表格生成函数 User-Defined Table Functions):接收一行输入,输出多行(explode)

9.2.1 UDF函数

UDF案例

依赖:
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>3.1.2</version>
        </dependency>

1、先开发一个简单的 java 类,继承 org.apache.hadoop.hive.ql.exec.UDF,重载 evaluate 方法 
public class ToLowerCase extends UDF {
    // 必须是 public,并且 evaluate 方法可以重载
    public String evaluate(String field)
    {
        String result = field.toLowerCase();
        return result;
    }
}

2、打成 jar 包上传到服务器 /home/data/hive-1.0-SNAPSHOT.jar

3、将 jar 包添加到 hive 的 classpath 
hive>add JAR /home/data/hive-1.0-SNAPSHOT.jar;   
 
4、查看加入的 jar 的命令:  hive> list jar; 

5、创建临时函数与开发好的 class 关联起来 
hive>create temporary function tolowercase as 'com.aa.hive.udf.ToLowerCase'; 

6、至此,便可以在 hql 在使用自定义的函数 
hive> select tolowercase("ABC");

9.2.2 UDTF函数

在数仓项目中结合具体业务再学习。

9.3 窗口函数

详见《Hive窗口分析函数全解》。



声明:
        文章中代码及相关语句为自己根据相应理解编写,文章中出现的相关图片为自己实践中的截图和相关技术对应的图片,若有相关异议,请联系删除。感谢。转载请注明出处,感谢。


By luoyepiaoxue2014

微博地址: http://weibo.com/luoyepiaoxue2014 点击打开链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/38564.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VSCode:使用CMakeLists.txt构建C++项目

vscode配置 插件&#xff1a; CMake插件主要功能是CMake语法高亮、自动补全CMake Tools的功能主要是结合VSCode IDE使用CMake这个工具&#xff0c;比如生成CMake项目、构建CMake项目等CMake Tools Helper CMake工具本身还是要下载到本地&#xff0c;并且配置环境变量。 项目…

足球二三事 - 世界杯征文

征文活动链接&#xff1a; https://bbs.csdn.net/topics/609601920 从报纸上时候看 1982 年的世界杯&#xff0c;当时我们家里没有电视&#xff0c;晚上的时候听到马路对面的房子里传来惊呼声&#xff0c;也不知道为啥。 1983 年的春节前&#xff0c;家里要打扫房间&#xff…

UE4,UE5虚幻引擎源码版下载

1、进入Epic的GitHub仓库 https://github.com/EpicGames/Signup GitHub - EpicGames/Signup: Information about signing up for a free Epic Games account, and getting access to UnrealEngine source code. 2、加入EpicTeamAdmin 3、进入UnrealEngine仓库 4、找到需要下…

Linux系统中curl命令用法详解

在Linux系统中curl是一个利用URL规则在命令行下工作的文件传输工具&#xff0c;是一款强大的http命令行工具。它支持文件的上传和下载&#xff0c;是综合传输工具。 curl 是常用的命令行工具&#xff0c;用来请求 Web 服务器。它的名字就是客户端&#xff08;client&#xff09…

(C语言)printf打印的字符串太长了,我想分两行!

本文来自于公众号&#xff1a;C语言编程技术分享 一、提问 有下述C程序&#xff1a; #include <stdio.h> #include <stdlib.h>int main() { printf("123456789012345678901234567890\n");system("pause");return 0; } printf函数要打印的字…

tomcat启动配置java_home,启动网址等,点击startup.bat直接启动

自己开发了一个网址&#xff08;基于angular&#xff09;&#xff0c;想共享给别人&#xff0c;直接点击运行&#xff0c;通过tomcat部署网站方式执行。 1、下载tomcat 从官网上下载tomcat&#xff0c;我下载的是tomcat9.0.36,下载完成后&#xff0c;解压&#xff1a; 双击b…

新知实验室

TUIRoom 是一个包含 UI 的开源音视频组件&#xff0c;通过集成 TUIRoom&#xff0c;可以在业务中快速上线音视频房间&#xff0c;屏幕分享&#xff0c;聊天等功能。 项目是开源的项目&#xff0c;根据自己 的需求设计项目。 创建步骤如下 &#xff1a; 一、 开通腾讯云实时…

被裁后一个offer都没有,测试人的问题出在哪里?

裁员潮涌&#xff0c;经济严冬。最近很多测试人过得并不好&#xff0c;行业缩水对测试岗位影响很直接干脆&#xff0c;究其原因还是测试门槛在IT行业较低&#xff0c;同质化测试人员比较多。但实际上成为一位好测试却有着较高的门槛&#xff0c;一名优秀的测试应当对产品的深层…

代码随想录65——额外题目【二叉树】:129求根节点到叶节点数字之和、1382将二叉搜索树变平衡、100相同的树、116填充每个节点的下一个右侧节点指针

文章目录1.129求根节点到叶节点数字之和1.1.题目1.2.解答2.1382将二叉搜索树变平衡2.1.题目2.2.解答3.100相同的树3.1.题目3.2.解答4.116填充每个节点的下一个右侧节点指针4.1.题目4.2.解答4.2.1.递归解法4.2.2.迭代方法1.129求根节点到叶节点数字之和 参考&#xff1a;代码随…

品优购项目详细分析

能够独立完成品优购首页制作哦 能够独立完成品优购列表页制作 能够独立完成品优购注册页制作 能够把品优购网站部署上线 网站制作流程&#xff1a; 初稿审核&#xff1a;网页美工会制作原型图和psd效果图 品优购项目规划&#xff1a; 1 品优购项目整体介绍 描述&#xff1…

【TS】函数重载--可选参数--默认参数

可选参数–默认参数 在ts中定义的数据类型&#xff0c;某些情况下只需要传入定义数据类型的一部分参数&#xff0c;比如&#xff1a;id 、name、age、address&#xff0c;此时需要修改用户的名称&#xff0c;那么只需要传入id、name就够了&#xff1b;某些情况下需要修改用户的…

.net-----集合和数据结构

集合和数据结构前言集合和数据结构的基本概念命名空间列表类集合列表类集合&#xff1a;数组列表列表类集合&#xff1a;列表List<T>双向链表LinkedList<T>字典类集合字典类集合类型哈希表Hashtable字典类集合&#xff1a;Dictionary<TKey, TValue >排序列表…

Vue3 Pinia 全局状态管理工具的使用

Pinia 是 Vue3 官方更推荐使用的全局状态管理工具。 Pinia 最初正是为了探索 Vuex 的下一个版本而开发的&#xff0c;因此整合了核心团队关于 Vuex 5 的许多想法。最终&#xff0c;我们意识到 Pinia 已经实现了我们想要在 Vuex 5 中提供的大部分内容&#xff0c;因此决定将其作…

E-梅莉的市场经济学

E-梅莉的市场经济学 题目背景 梅莉这个学期选修了经济学。但是主修心理学的她实在不擅长经济领域的分析&#xff0c;为此她时常抱怨自己学不会&#xff0c;想退课。 但是如果现在退掉的话这学期的学分就不够啦&#xff0c;因此她根据“梦中”的经历&#xff0c;“胡诌”了一…

Unity 如何实现框选游戏战斗单位

文章目录&#x1f354; Preface✨ 如何在屏幕坐标系内绘制框选框&#x1f389; 根据框选范围定位其在世界坐标系中对应的区域&#x1f947; 在该区域内进行物理检测&#x1f354; Preface 本文简单介绍如何实现即时战略游戏中框选战斗单位的功能&#xff0c;如图所示&#xff…

NeRF-SLAM 学习笔记

NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 主页&#xff1a;https://deepai.org/publication/nerf-slam-real-time-dense-monocular-slam-with-neural-radiance-fields 论文&#xff1a;https://arxiv.org/pdf/2210.13641.pdf Code&#xff1a;…

RabbitMQ复习笔记

文章目录RabbitMQ一、MQ引言1.1、什么是MQ1.2、MQ有哪些1.3、不同MQ特点二、RabbitMQ 的引言2.1、RabbitMQ2.2、RabbitMQ的安装2.2.1、下载2.2.2、下载的安装包2.2.3、安装步骤三、RabiitMQ 配置3.1、RabbitMQ 管理命令行3.2、web管理界面介绍3.2.1、overview概览3.2.2 Admin用…

手摸手利在idea中利用maven创建web项目

1. 下载maven&#xff0c;目前最新版本是3.8.6。在环境变量中创建MAVEN_HOME变量&#xff0c;并在PATH中添加。maven的运行依赖于java环境&#xff0c;这意味着在配置MAVEN前&#xff0c;应该已经在环境变量中配置有JAVA_HOME和PATH中配置好了JAVA相关环境。 2. 配置完毕后&…

力扣(LeetCode)84. 柱状图中最大的矩形 (C++)

朴素思想 朴素思想&#xff0c;找左右边界&#xff0c;依次乘以区间内最小上边界&#xff0c;取最大值。这个做法需要遍历左边界&#xff0c;对于每个左边界遍历右边界。因此需要 O(n2)O(n^2)O(n2) 的时间复杂度。 转换思路&#xff0c;确定上边界&#xff0c;找左右边界。这…

数据结构--循环链表

目录 1.为什么要有循环链表 2.定义 3.循环链表和单链表的图示对比 4.循环链表和单链表的代码对比 5.循环链表的操作 1.clist.h 2.clist.cpp 1.初始化plist 2.往plist中头部插入数字val 3.往plist中的尾部插入数字val 4.在plist中查找val值,找到返回该节点地址,失败返…