Spark----DataFrame和DataSet

news2025/6/11 13:10:46

Spark之DataFrame和DataSet


文章目录

  • Spark之DataFrame和DataSet
  • DataFrame
    • DSL 语法
      • 创建DataFrame
      • 查看DataFrame的Schema信息
      • 只查看列数据的6种方式
      • 按照“age”分区,查看数据条数
      • 增加列withColumn
      • 修改列名withColumnRenamed
    • RDD 转换为 DataFrame
    • DataFrame 转换为 RDD
    • 转换图
  • DataSet
    • RDD 转换为 DataSet
    • DataSet 转换为 RDD
  • DataFrame 和 DataSet 转换
  • RDD、DataFrame、DataSet 三者的关系
    • 三者的共性
    • 三者的区别
      • RDD
      • DataFrame
      • DataSet
    • 三者的互相转换


DataFrame

在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。反观 RDD,由于无从得知所存数据元素的具体内部结构,Spark Core 只能在 stage 层面进行简单、通用的流水线优化。
同时,与 Hive 类似,DataFrame 也支持嵌套数据类型(struct、array 和 map)。从 API 易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要更加友好,门槛更低。
在这里插入图片描述
RDD[Person]虽然以 Person 为类型参数,但 Spark 框架本身不了解 Person 类的内部结构
DataFrame 却提供了详细的结构信息,使得 Spark SQL 可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么
DataFrame 是为数据提供了 Schema 的视图。可以把它当做数据库中的一张表来对待DataFrame 也是懒执行的,但性能上比 RDD 要高,主要原因:优化的执行计划,即查询计划通过 Spark catalyst optimiser 进行优化。

DSL 语法

DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。
可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格不必去创建临时视图了

创建DataFrame

val df: DataFrame = spark.read.json("datas/user.json")

查看DataFrame的Schema信息

df.printSchema()
df.show(false)

在这里插入图片描述

只查看列数据的6种方式

注意:涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式:单引号+字段名

//    输出的6种方式
//在使用DataFrame时,如果涉及到转换操作,需要引入转换规则
    import spark.implicits._
    userDF.select('name,'age).show()
    userDF.select("name","age").show()
    userDF.select($"name",$"age").show()
    userDF.select(userDF("name"),userDF("age")).show()
//import org.apache.spark.sql.functions.{col, column}
    userDF.select(col("name"),col("age")).show()
    userDF.select(column("name"),column("age")).show()

按照“age”分区,查看数据条数

    val countDF: DataFrame = df.groupBy("age").count()
    countDF.printSchema()
    countDF.show()

在这里插入图片描述

增加列withColumn

countDF.withColumn("number",$"count".cast(StringType))

修改列名withColumnRenamed

countDF.withColumnRenamed("count","number")

RDD 转换为 DataFrame

如果需要RDD与 DF 或者 DS 之间互相操作
在IDEA中需要 引入 import spark.implicits._
在黑窗口spark-shell中不需要引入,自动导入
这里的 spark 不是 Scala 中的包名,而是创建的 sparkSession 对象的变量名称,所以必须先创建 SparkSession 对象再导入。这里的 spark 对象不能使用 var 声明,因为 Scala 只支持val 修饰的对象的引入

    val rdd: RDD[(Int, String, Int)] = spark.sparkContext.makeRDD(List((1, "zhangsan", 30), (2, "lisi", 40)))
    val df: DataFrame = rdd.toDF("id", "name", "age")

在这里插入图片描述

DataFrame 转换为 RDD

    val rowRDD: RDD[Row] = df.rdd
    rowRDD.foreach(println)

在这里插入图片描述

转换图

在这里插入图片描述

DataSet

DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象,是 DataFrame的一个扩展。它提供了 RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换(操作 map,flatMap,filter等等)

  • DataSet 是 DataFrame API 的一个扩展,是 SparkSQL 最新的数据抽象
  • 用户友好的 API 风格,既具有类型安全检查也具有 DataFrame 的查询优化特性
  • 用样例类来对 DataSet 中定义数据的结构信息,样例类中每个属性的名称直接映射到DataSet 中的字段名称
  • DataSet 是强类型的。比如可以有 DataSet[Car],DataSet[Person]
  • DataFrame 是 DataSet 的特列,DataFrame=DataSet[Row] ,所以可以通过 as 方法将DataFrame 转换为 DataSet。Row 是一个类型,跟 Car、Person 这些的类型一样,所有的表结构信息都用 Row 来表示。获取数据时需要指定顺序

RDD 转换为 DataSet

SparkSQL能够自动将包含case类的RDD转换成DataSet,case类定义了table的结构,case类属性通过反射编程了表的列名。case类可以包含如Seq或者Array等复杂的结构

println("----------rdd->ds-------")
    val ds1: Dataset[User] = rdd.map {
      case (id, name, age) => {
        User(id, name, age)
      }
    }.toDS()
    ds1.printSchema()
    ds.show()

在这里插入图片描述

DataSet 转换为 RDD

DataSet也是对RDD的封装,所以可以直接获得内部的RDD

    println("----------ds->rdd-------")
    val userRDD: RDD[User] = ds1.rdd
    userRDD.foreach(println)

在这里插入图片描述

DataFrame 和 DataSet 转换

DataFrame => DataSet:as[样例类]
DataSet => DataFrame:toDF

    //DataFrame<=>DataSet
    //样例类
    println("===========================")
    val ds: Dataset[User] = df.as[User]
    ds.printSchema()
    ds.show()
    val df1: DataFrame = ds.toDF()
    df1.printSchema()
    df1.show()

在这里插入图片描述

RDD、DataFrame、DataSet 三者的关系

三者的共性

  • 都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利

  • 都有惰性机制,在创建、转换时,不会立即执行。只有在遇到行动算子时,才会开始运行

  • 有很多共同的函数

  • DataFrame 和 DataSet 许多操作都需要导入包:import spark.implicits._

  • 都会根据Spark的内存情况自动缓存运算,即使数据量很大,也不用担心内存溢出

  • 都有partition的概念

  • DataFrame 和 DataSet 都可以使用匹配模式获取各个字段的值和类型

三者的区别

RDD

  • RDD一般和spark mllib同时使用
  • RDD不支持sparkSQL操作

DataFrame

  • RDD和DataFrame不同,DataFrame每一行的类型固定为Row,每一列的值无法直接访问,只有通过解析才能获取各个字段的值
  • DataFrame 和 DataSet 一般捕鱼spark mllib 同时使用
  • DataFrame 和 DataSet都支持SparkSQL操作,如select,groupby等。同时也能注册临时表/视窗,进行sql语句操作
  • DataFrame 和 DataSet支持一些方便的保存方式,比如保存成csv,可以带上表头

DataSet

  • DataFrame 和 DataSet拥有完全相同的成员函数,区别只是每一行的数据类型不同。DataFrame其实就是DataSet的一个特例
  • DataFrame 也可以叫 DataSet[Row],每一行的类型是Row

三者的互相转换

在这里插入图片描述

//样例类
case class User(id:Int,name:String,age:Int)
// RDD <=> DataFrame
val rdd = spark.sparkContext.makeRDD(List(1,"zhangsan",30),(2,"lisi",40))
val df: DataFrame = rdd.toDF("id","name","age")
val rowRDD:RDD[Row] = df.rdd
 
// DataFrame <=> DataFrame
val ds:Dataset[User] = df.as[User]
val df1:DataFrame = ds.toDF()
 
// RDD <=> DataSet
rdd.map {
    case (id, name, age) =>{
        User(id, name, age)
    }
}
val userRDD:RAA[User] = ds1.rdd

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/412262.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用双轴XY平台绘制斜向多边形

1. 功能说明 本文示例将实现双轴XY平台绘制斜向多边形的功能。 2. 直角坐标机器人的结构设计 直角坐标机器人各个运动轴通常对应直角坐标系中的X轴、Y轴和Z 轴&#xff0c;其中X 轴和Y 轴是水平面内运动轴&#xff0c;Z轴是上下运动轴。在绝大多数情况下直角坐标机器人的各个直…

SpringBoot集成Easy-Es

文章目录SpringBoot集成Easy-Es一、集成demo二、索引CRUD创建索引查询索引更新索引删除索引三、数据CURD四、参数文档SpringBoot集成Easy-Es Easy-Es&#xff08;简称EE&#xff09;是一款基于ElasticSearch(简称Es)官方提供的RestHighLevelClient打造的ORM开发框架&#xff0c…

C语言—实用调试技巧

实用调试技巧什么是bug&#xff1f;调试是什么&#xff1f;有多重要&#xff1f;什么是调试调试的基本步骤Debug和Release的介绍Windows环境调试介绍调试环境的准备快捷键的使用调试的时候查看程序当前信息查看断点信息查看临时变量的值查看局部变量的值查看内存信息查看汇编信…

PERSIANN 降雨数据使用教程

一、前言PERSIANN&#xff0c;“使用人工神经网络从遥感信息中估算降水”&#xff0c;是一种基于卫星的降水检索算法&#xff0c;可提供近乎实时的降雨信息。该算法使用来自全球地球同步卫星的红外 (IR) 卫星数据作为降水信息的主要来源。 红外图像的降水基于云顶温度和降水率之…

ESP32驱动1.28寸GC9A01播放视频(一、视频分辨率的调整和视频格式的转换)

ESP32驱动1.28寸GC9A01播放视频&#xff08;一、视频分辨率的调整和视频格式的转换&#xff09;播放前准备转换视频分辨率用FFmpeg将.MP4转换为.mjpeg格式FFmpeg的win10环境搭建FFmpeg的下载环境变量的搭建MP4转换成mjpeg格式总结播放前准备 1.28寸GC9A01屏幕的分辨率是240x24…

prometheus标签

004 标签 1. 作用 Prometheus中存储的数据为时间序列&#xff0c;是由Metric的名字和一系列的标签(键值对)唯一标识的, 不同的标签代表不同的时间序列&#xff0c;即 通过指定标签查询指定数据 。 指标标签实现了查询条件的作用&#xff0c;可以指定不同的标签过滤不同的数据…

类ChatGPT产品Claude上线Slack平台,一手实测体验在此

文章目录Claude-in-Slack自我介绍成语接龙数学能力代码能力其他总结Claude-in-Slack Claude是Anthropic推出的类ChatGPT对话机器人。Anthropic是一家由前OpenAI团队成员创立的人工智能初创公司。Claude免费、支持中文、无需注册&#xff0c;好心动&#xff0c;立刻上手测试。 …

第一个禁止ChatGPT的西方国家

意大利成为第一个有效禁止 ChatGPT 的西方国家。 由于可能违反隐私和数据法&#xff0c;该国的数据监管机构已下令开发聊天机器人的 OpenAI 停止运营。 意大利数据保护局 (GPDP) 提到了一些担忧&#xff0c;包括大量收集用户数据和存储以训练 AI 算法。 ChatGPT 是一种大型语…

Eyeshot Ultimate 2023 Crack

Eyeshot Ultimate 2023 Crack 已经引入了文档类。 工作区。文档现在包含绘制场景内容所需的所有数据。 2022版GEntities已被删除。 最后&#xff0c;一个真正的跨平台中立核心产品是可用的。 新功能 曲线、平面、曲面和体积网格。 屏幕空间环境光遮挡。 托管ReadDWG和ReadDXF类…

【SQL】一文带你掌握SQL基础语法

文章目录&#x1f496;1&#xff0c;SQL概述&#x1f388;1.1 SQL简介&#x1f388;1.2 通用语法&#x1f388;1.3 SQL分类&#x1f496;2&#xff0c;DDL:操作数据库&#x1f388;2.1 查询&#x1f388;2.2 创建数据库&#x1f388;2.3 删除数据库&#x1f388;2.4 使用数据库…

哪个品牌的触控笔质量好?ipad好用的触控笔

从这一点就能看出来&#xff0c;苹果原装的这一款电容笔&#xff0c;确实是贵得让人无法入手&#xff0c;一支就要一千多块钱。实际上&#xff0c;平替电容笔对没有太多预算的用户是个不错的选择。就拿正版电容笔来说&#xff0c;一正版的电容笔来说&#xff0c;就是4支平替电容…

Mybatis-Plus——实现公共字段自动填充(瑞吉外卖)

目录 一、公共字段自动填充 1.1 问题分析 1.2 实现思路及代码编写 二、 知识补充&#xff1a; ThreadLocal 2.1 使用背景 2.2 ThreadLocal介绍 2.2.1 设置当前线程的线程局部变量的值 public void set(T value) 2.2.2 返回当前线程所对应的线程 局部变量的值 public T ge…

Linux 下 QT 安卓开发环境搭建

1、采用QT5.14.2&#xff0c;主要是安装1、jdk 2、SDK 3、NDK 三个工具包&#xff0c;版本要匹配上&#xff1b; 备注&#xff1a;配置SDK需要注意&#xff1a; 解压SDK&#xff0c;进入到tools目录下&#xff0c;运行android可执行文件&#xff0c;会打开一个页面&#xff0c…

nvm软件使用-同一个环境下控制多个不同node版本

1.使用场景 nvm是一个用于管理Node.js版本的工具&#xff0c;它可以让你在同一台机器上安装和切换不同的Node.js版本。使用nvm的好处有以下几点&#xff1a; 1.1.nvm可以让你轻松地测试你的代码在不同的Node.js版本下的兼容性和性能&#xff0c;避免因为版本差异导致的问题。…

代码随想录_二叉树_leetcode530 501

leetcode 530 二叉搜索树的最小绝对差 530. 二叉搜索树的最小绝对差 给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数&#xff0c;其数值等于两值之差的绝对值。 示例 1&#xff1a; 输入&#xff1a;root [4,2,6…

ChatGTP如此强大,我们普通人如何利用它来赚钱?

我从效率提升的角度&#xff0c;分享了我这段时间看到的、用到的&#xff0c;以及思考的一些内容。 最近这段时间&#xff0c;我算是密集的学习。不得不说&#xff0c;优质的资料在推特和油管上特别多&#xff0c;看科技大佬的分享真是一种享受。 很多大神也会录制各种详细的…

项目进度把控难题,项目管理系统轻松帮你解决!

项目管理是企业中非常重要的一项工作&#xff0c;无论是新的项目还是旧的项目&#xff0c;都需要对其进行有效的管理&#xff0c;以确保项目顺利完成并达到预期目标。项目管理涉及到很多方面&#xff0c;比如项目交接、实施计划管理、项目功能管理、项目设备管理等等&#xff0…

tcp三次握手与四次分手

一、tcp三次握手 1、TCP建立连接的流程 1&#xff09;client首先给server发送一个SYN报文&#xff0c;表示想要与server建立TCP连接&#xff0c;此时seq序列号为0 2&#xff09;server收到了报文后&#xff0c;向client发送一个SYN和ACK确认报文&#xff0c;将ACK和SYN放到同一…

SpringSecurity之CSRF

前言 前一篇讲解了关于用户注销以及自动登录&#xff08;记住我&#xff09;等功能。今天我们来看一下关于CSRF的使用及避免。 什么是CSRF 跨站请求伪造&#xff08;英语&#xff1a;Cross-site request forgery&#xff09;&#xff0c;也被称为 one-click attack 或者 ses…

74-网络一(基础知识)

网络一一.基础知识1.什么是网络2.互联网3.IP地址(1)什么是IP地址及其作用(2)IP地址的组成(3)IP地址的分类(4)IP地址的查询4.MAC地址5.端口号(1)端口号及其作用(2)怎么实现A主机上的一个进程和B进程上的一个进程实现通讯?网络二见:网络二 一.基础知识 1.什么是网络 网络是由…