九、HQL DQL七大查询子句

news2025/5/16 12:21:04

作者:IvanCodes
日期:2025年5月15日
专栏:Hive教程

Apache Hive 的强大之处在于其类 SQL 的查询语言 HQL,它使得熟悉 SQL 的用户能够轻松地对存储在大规模分布式系统(如 HDFS)中的数据进行复杂的查询和分析。一个典型且完整的 HQL 查询语句,通常由一系列有序的子句构成。理解并熟练运用这些核心子句,是高效进行数据探索和提取基础。我们这次重点剖析 HQL 中最常用也最核心七个查询子句及其执行顺序

在这里插入图片描述
在这里插入图片描述

Hive HQL 七大查询子句及其执行顺序概述

一个完整的 HQL 查询语句,其逻辑上执行顺序(注意:这不完全等同于SQL 语句的书写顺序,也不代表 Hive 引擎物理执行确切步骤,但有助于理解数据如何被逐步筛选和转换)通常如下:

  1. FROM 子句:指定数据来源的表或视图
  2. WHERE 子句:对 FROM 子句中产生的原始数据行进行过滤
  3. GROUP BY 子句:将经过 WHERE 过滤后的数据行,按照一个或多个列的值进行分组
  4. HAVING 子句:对 GROUP BY 子句产生的分组结果进行过滤
  5. SELECT 子句:选择计算最终要输出的列
  6. ORDER BY 子句:对 SELECT 子句产生的最终结果集进行全局排序
  7. LIMIT 子句:限制 ORDER BY 排序后(或未排序时)最终输出的行数

接下来,我们将逐一详细解析这些子句。

一、FROM 子句:数据的源头

功能:指定查询操作的数据来源。可以是一个表,或者是一个子查询的结果(尽管我们这次练习题会尽量避免复杂子查询)。
基本语法:

FROM table_name [alias]

案例:

-- 从单个表查询所有列
SELECT * FROM employees;

-- 从单个表查询,并给表起别名
SELECT e.name FROM employees e;

二、WHERE 子句:行级别的数据筛选

功能:根据指定的条件过滤 FROM 子句返回的每一行数据。只有满足条件的行才会进入后续的处理阶段。WHERE 子句中不能使用聚合函数
基本语法:

WHERE condition1 [AND | OR] condition2 ...;

案例:查询部门为 ‘Sales’ 或 ‘Marketing’ 的员工

SELECT name, department
FROM employees
WHERE department = 'Sales' OR department = 'Marketing';

案例:查询薪水在 50000 到 70000 之间(包含边界)的员工

SELECT name, salary
FROM employees
WHERE salary >= 50000 AND salary <= 70000;
-- 或者使用 BETWEEN
-- WHERE salary BETWEEN 50000 AND 70000;

三、GROUP BY 子句:数据的分组聚合

功能:将具有相同值(在指定的列上组合成一个汇总行(一个分组)。通常与聚合函数(如 COUNT(), SUM(), AVG(), MAX(), MIN()配合使用,对每个分组进行计算
基本语法:

GROUP BY column1_name, column2_name, ...;

案例:统计每个部门的员工数量

SELECT department, COUNT(*) AS num_employees
FROM employees
GROUP BY department;

注意SELECT 列表中除了聚合函数外所有列,都必须出现GROUP BY 子句中。

四、HAVING 子句:分组后的条件筛选

功能:与 WHERE 子句类似,但 HAVING 作用于 GROUP BY 子句产生的分组结果。它用于过滤分组,只有满足 HAVING 条件的分组才会被保留HAVING 子句中可以使用聚合函数。
基本语法:

HAVING condition_on_aggregated_values;

案例:找出员工数量超过10人的部门

SELECT department, COUNT(*) AS num_employees
FROM employees
GROUP BY department
HAVING COUNT(*) > 10;

总结WHERE 先过滤行,再 GROUP BY 分组HAVING 后过滤分组

五、SELECT 子句:选择与呈现

功能指定最终查询结果中包含哪些列。可以直接选择表中的列,也可以使用表达式、函数(包括聚合函数)来计算新的列SELECT 子句在逻辑上是在 FROM, WHERE, GROUP BY, HAVING 之后执行的。
基本语法:

SELECT [DISTINCT] column_or_expression1 [AS alias1], column_or_expression2 [AS alias2], ...;
  • DISTINCT: 去除结果集中的重复行(基于选择的所有列)。
  • AS alias: 为列或表达式指定别名
    案例:查询员工姓名,并将薪水乘以1.1作为“预期薪水”显示
SELECT
name,
salary,
salary * 1.1 AS expected_salary
FROM employees;

案例:查询所有不同的部门名称

SELECT DISTINCT department
FROM employees;

六、ORDER BY 子句:结果的最终排序

功能:对 SELECT 子句生成的最终结果集进行排序。可以按一个或多个列排序,并指定升序 (ASC,默认) 或降序 (DESC)。ORDER BY 通常是查询中资源消耗较大的操作之一,因为它需要对所有结果数据进行全局排序
基本语法:

ORDER BY column1_name [ASC | DESC], column2_name [ASC | DESC], ...;

案例:查询所有员工,按入职日期 (hire_date) 从新到旧排列

SELECT name, hire_date
FROM employees
ORDER BY hire_date DESC;

七、LIMIT 子句:控制输出的行数

功能限制查询最终返回的行数。它通常在所有其他操作(包括 ORDER BY之后应用。
基本语法:

LIMIT number_of_rows;

案例:查询薪水最低的3名员工的信息

SELECT name, salary, department
FROM employees
ORDER BY salary ASC
LIMIT 3;

结语:七子句的协同与威力

HQL 的这七个核心查询子句,通过不同的组合和嵌套,构成了数据查询和分析强大能力。理解每个子句的功能及其大致的执行顺序,是编写高效、准确的 HQL 查询的前提。虽然 Hive 底层会通过 MapReduce 或 Tez 对查询进行优化,但清晰的逻辑结构合理的子句使用,仍然是提升查询性能可读性关键


练习题

假设我们有一个名为 products 的表,其结构如下:

products 表:

  • product_id INT (产品ID)
  • product_name STRING (产品名称)
  • category STRING (产品类别, 例如: ‘Electronics’, ‘Books’, ‘Clothing’, ‘Home Goods’)
  • price DECIMAL(10,2) (价格)
  • stock_quantity INT (库存数量)
  • release_date DATE (发布日期)
  1. 题目一:FROMSELECT 的基本使用
    要求:从 products 表中查询所有产品的产品名称 (product_name) 和价格 (price)。

  2. 题目二:WHERE 子句筛选
    要求:查询 products 表中所有类别为 ‘Books’ 且价格低于 20.00 的产品信息(所有列)。

  3. 题目三:GROUP BY 与聚合函数
    要求:查询 products 表,统计每个产品类别 (category) 下有多少种不同的产品(即产品数量 num_products)以及这些产品的平均价格 (avg_price)。

  4. 题目四:HAVING 子句过滤分组结果
    要求:基于上一题的结果,只显示那些产品数量超过 5 种,并且平均价格高于 50.00 的产品类别及其统计信息。

  5. 题目五:ORDER BY 排序输出
    要求:查询 products 表中所有库存数量 (stock_quantity) 大于 0 的产品,按其发布日期 (release_date) 从最新到最旧排序,如果发布日期相同,则按产品名称 (product_name) 字母顺序升序排序。显示产品名称、发布日期和库存数量。

  6. 题目六:LIMIT 限制结果数量
    要求:查询 products 表中价格最高的前5款产品。显示产品名称和价格。

  7. 题目七:综合运用所有七个子句(尽可能)
    要求:从 products 表中找出类别为 ‘Electronics’ 或 ‘Home Goods’,且库存数量 (stock_quantity) 少于 10 件的产品。然后,按类别分组,计算每个类别下这类产品的平均价格。只显示那些平均价格大于 100.00 的类别。最后,将结果按平均价格降序排列,只取排名第一的类别信息(类别名称和平均价格)。


练习题答案

  1. 题目一答案:
SELECT product_name, price
FROM products;
  1. 题目二答案:
SELECT *
FROM products
WHERE category = 'Books' AND price < 20.00;
  1. 题目三答案:
SELECT category, COUNT(product_id) AS num_products, AVG(price) AS avg_price
FROM products
GROUP BY category;
  1. 题目四答案:
SELECT category, COUNT(product_id) AS num_products, AVG(price) AS avg_price
FROM products
GROUP BY category
HAVING COUNT(product_id) > 5 AND AVG(price) > 50.00;
  1. 题目五答案:
SELECT product_name, release_date, stock_quantity
FROM products
WHERE stock_quantity > 0
ORDER BY release_date DESC, product_name ASC;
  1. 题目六答案:
SELECT product_name, price
FROM products
ORDER BY price DESC
LIMIT 5;
  1. 题目七答案:
SELECT
category,
AVG(price) AS avg_category_price
FROM
products
WHERE
(category = 'Electronics' OR category = 'Home Goods') AND stock_quantity < 10
GROUP BY
category
HAVING
AVG(price) > 100.00
ORDER BY
avg_category_price DESC
LIMIT 1;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2376840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RTSP 播放器技术探究:架构、挑战与落地实践

RTSP 播放器为什么至今无法被淘汰&#xff1f; 在实时视频传输领域&#xff0c;RTSP&#xff08;Real-Time Streaming Protocol&#xff09;作为最基础、最常见的协议之一&#xff0c;至今依然被广泛用于监控设备、IP Camera、视频服务器等设备中。然而&#xff0c;要构建一个稳…

实验5 DNS协议分析与测量

实验5 DNS协议分析与测量 1、实验目的 了解互联网的域名结构、域名系统DNS及其域名服务器的基本概念 熟悉DNS协议及其报文基本组成、DNS域名解析原理 掌握常用DNS测量工具dig使用方法和DNS测量的基本技术 2、实验环境 硬件要求&#xff1a;阿里云云主机ECS 一台。 软件要…

【鸿蒙开发】性能优化

语言层面的优化 使用明确的数据类型&#xff0c;避免使用模糊的数据类型&#xff0c;例如ESObject。 使用AOT模式 AOT就是提前编译&#xff0c;将字节码提前编译成机器码&#xff0c;这样可以充分优化&#xff0c;从而加快执行速度。 未启用AOT时&#xff0c;一边运行一边进…

2025-05-13 学习记录--Python-循环:while循环 + while-else循环 + for循环 + 循环控制

合抱之木&#xff0c;生于毫末&#xff1b;九层之台&#xff0c;起于累土&#xff1b;千里之行&#xff0c;始于足下。&#x1f4aa;&#x1f3fb; 一、循环 ⭐️ &#xff08;一&#xff09;、while循环 &#x1f36d; 初始条件设置 -- 通常是重复执行的 计数器while 条件(判…

Vue3学习(组合式API——生命周期函数基础)

目录 一、Vue3组合式API中的生命周期函数。 &#xff08;1&#xff09;各阶段生命周期涉及函数简单介绍。 <1>创建挂载阶段的生命周期函数。 <2>更新阶段的生命周期函数。 <3>卸载阶段的生命周期函数。 <4>错误处理的生命周期函数。 &#xff08;2&…

计量——检验与代理变量

1.非嵌套模型的检验 1Davidson-Mackinnon test 判断哪个模型好 log&#xff08;y&#xff09;β0β1x1β2x2β3x3u log&#xff08;y&#xff09;β0β1log&#xff08;x1&#xff09;β2log&#xff08;x2&#xff09;β3log&#xff08;x3&#xff09;u 1.对log&#xff…

HTML-实战之 百度百科(影视剧介绍)

本系列可作为前端学习系列的笔记&#xff0c;代码的运行环境是在HBuilder中&#xff0c;小编会将代码复制下来&#xff0c;大家复制下来就可以练习了&#xff0c;方便大家学习。 系列文章目录 HTML-1.1 文本字体样式-字体设置、分割线、段落标签、段内回车以及特殊符号 HTML…

计算机视觉---目标追踪(Object Tracking)概览

一、核心定义与基础概念 1. 目标追踪的定义 定义&#xff1a;在视频序列或连续图像中&#xff0c;对一个或多个感兴趣目标&#xff08;如人、车辆、物体等&#xff09;的位置、运动轨迹进行持续估计的过程。核心任务&#xff1a;跨帧关联目标&#xff0c;解决“同一目标在不同…

Weblogic SSRF漏洞复现(CVE-2014-4210)【vulhub靶场】

漏洞概述&#xff1a; Weblogic中存在一个SSRF漏洞&#xff0c;利用该漏洞可以发送任意HTTP请求&#xff0c;进而攻击内网中redis、fastcgi等脆弱组件。 漏洞形成原因&#xff1a; WebLogic Server 的 UDDI 组件&#xff08;uddiexplorer.war&#xff09;中的 SearchPublicR…

AI大模型应用:17个实用场景解锁未来

任何新技术的普及都需要经历一段漫长的过程&#xff0c;人工智能大模型也不例外。 尽管某些行业的从业者已经开始将大模型融入日常工作&#xff0c;但其普及程度仍远未达到“人手必备”的地步。 那么&#xff0c;究竟是什么限制了它的广泛应用&#xff1f;普通人如何才能用好…

java17

1.常见API之BigDecimal 底层存储方式&#xff1a; 2.如何分辨过时代码&#xff1a; 有横线的代码表示该代码已过时 3.正则表达式之字符串匹配 注意&#xff1a;如果X不是单一字符&#xff0c;需要加[]中括号 注意&#xff1a;1.想要表达正则表达式里面的.需要\\. 2.想要表…

C++算法(22):二维数组参数传递,从内存模型到高效实践

引言 在C程序设计中&#xff0c;二维数组的参数传递是许多开发者面临的棘手问题。不同于一维数组的相对简单性&#xff0c;二维数组在内存结构、类型系统和参数传递机制上都存在独特特性。本文将深入探讨静态数组、动态数组以及STL容器三种实现方式&#xff0c;通过底层原理分…

Lightpanda开源浏览器:专为 AI 和自动化而设计的无界面浏览器

​一、软件介绍 文末提供程序和源码下载 Lightpanda开源浏览器&#xff1a;专为 AI 和自动化而设计的无界面浏览器&#xff1b; Javascript execution Javascript 执行Support of Web APIs (partial, WIP)支持 Web API&#xff08;部分、WIP&#xff09;Compatible with Pla…

技术文档不完善,如何促进知识传承

建立统一的技术文档规范、引入文档自动化工具、将文档写作融入开发流程、建设团队知识共享文化 是促进知识传承的关键策略。在其中&#xff0c;尤应重视建立统一的技术文档规范&#xff0c;通过标准化文档结构、命名、版本管理等方式&#xff0c;提升文档质量和可维护性&#x…

Windows平台OpenManus部署及WebUI远程访问实现

前言&#xff1a;继DeepSeek引发行业震动后&#xff0c;Monica.im团队最新推出的Manus AI 产品正席卷科技圈。这款具备自主思维能力的全能型AI代理&#xff0c;不仅能精准解析复杂指令并直接产出成果&#xff0c;更颠覆了传统人机交互模式。尽管目前仍处于封闭测试阶段&#xf…

位运算题目:找到最接近目标值的函数值

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题&#xff1a;找到最接近目标值的函数值 出处&#xff1a;1521. 找到最接近目标值的函数值 难度 8 级 题目描述 要求 Winston 构造了一个如上所示的函数 func \…

哲学物理:太极图和莫比乌斯环有什么关系?

太极图 是中国传统文化中的经典符号,由阴阳两部分组成,黑白两色相互环绕,中间有两点表示阴中有阳,阳中有阴。太极图象征着对立统一、相互依存和动态平衡,是道家哲学的核心思想之一。 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/477e67d70c2b4383bac3e12c8a6…

机器学习笔记1

一、 机器学习介绍与定义 1. 机器学习定义 机器学习&#xff08;Machine Learning&#xff09;本质上就是让计算机自己在数据中学习规律&#xff0c;并根据所得到的规律对未来数据进行预测。 机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习&#xff08;Deep…

JVM中的安全点是什么,作用又是什么?

JVM中的安全点&#xff08;Safepoint&#xff09; 是Java虚拟机设计中的一个关键机制&#xff0c;主要用于协调所有线程的执行状态&#xff0c;以便进行全局操作&#xff08;如垃圾回收、代码反优化等&#xff09;。它的核心目标是确保在需要暂停所有线程时&#xff0c;每个线程…

关于github使用总结

文章目录 一、本地使用git&#xff08;一&#xff09;创建一个新的本地Git库首先在本地创建一个新的git仓库然后进行一次初始提交提交过后就可以查看提交记录 &#xff08;二&#xff09;在本地仓库进行版本恢复先执行 git log 查看项目提交历史使用 git checkout 恢复版本 二、…