Spark，IDEA编写Maven项目

news2025/5/14 10:30:30

以下是在IDEA中使用Maven构建Spark项目的步骤：

一、环境准备

1. 安装JDK

- 确保IDEA配置了JDK 8+（推荐11+）。

2. 安装Maven

- 配置Maven环境变量，IDEA中设置Maven路径（ File > Settings > Build > Maven ）。

3. 下载Spark依赖

- 无需本地安装Spark，通过Maven引入依赖。

二、创建Maven项目

1. 新建项目

- 在IDEA中选择 Create New Project > Maven > 勾选Create from archetype > 选择 maven-archetype-quickstart ，点击下一步。

2. 配置项目信息

- 填写GroupId（如 com.example ）、ArtifactId（如 spark-demo ），选择存储路径。

三、编写 pom.xml 文件

添加Spark和Scala依赖（以Spark 3.5.0为例）：

xml

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

<groupId>com.example</groupId>

<artifactId>spark-demo</artifactId>

<version>1.0-SNAPSHOT</version>

<scala.version>2.12.17</scala.version>

<spark.version>3.5.0</spark.version>

<maven.compiler.source>11</maven.compiler.source>

<maven.compiler.target>11</maven.compiler.target>

</properties>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_${scala.version}</artifactId>

<version>${spark.version}</version>

<scope>provided</scope>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_${scala.version}</artifactId>

<version>${spark.version}</version>

<scope>provided</scope>

</dependency>

<groupId>org.scala-lang</groupId>

<artifactId>scala-library</artifactId>

<version>${scala.version}</version>

</dependency>

</dependencies>

<build>

<groupId>net.alchim31.maven</groupId>

<artifactId>scala-maven-plugin</artifactId>

<goals>

<goal>compile</goal>

<goal>testCompile</goal>

</goals>

</execution>

</executions>

</plugin>

<groupId>org.apache.maven.plugins</groupId>

<artifactId>maven-shade-plugin</artifactId>

<phase>package</phase>

<goals>

<goal>shade</goal>

</goals>

</excludes>

</filter>

</filters>

<resource>reference.conf</resource>

</transformer>

<mainClass>你的主类路径</mainClass>

</transformer>

</transformers>

</configuration>

</execution>

</executions>

</plugin>

</plugins>

</build>

</project>

四、创建Scala/Java源文件

1. 标记源代码目录

- 在 src/main 下新建 scala 或 java 目录，右键选择 Mark Directory as > Sources Root。

2. 编写Spark应用（Scala示例）

scala

import org.apache.spark.sql.SparkSession

object SparkApp {

def main(args: Array[String]): Unit = {

// 创建SparkSession（本地模式）

val spark = SparkSession.builder()

.appName("IDEA Maven Spark Demo")

.master("local[*]") // 本地多线程运行

.getOrCreate()

// 简单示例：读取文本文件

val df = spark.read.text("src/main/resources/test.txt")

df.printSchema()

df.show()

spark.stop()

}

五、运行与调试

1. 本地运行

- 直接点击IDEA中的运行按钮， master("local[*]") 会使用本地资源执行。

2. 调试

- 设置断点，通过IDEA调试功能排查代码问题。

3. 打包部署

- 执行 mvn clean package 生成JAR包（若使用 shade-plugin ，需确保主类配置正确），上传到Spark集群运行：

bash

spark-submit --class com.example.SparkApp --master yarn ./target/spark-demo-1.0-SNAPSHOT.jar

注意事项

1. 依赖范围（Scope）

- provided 表示依赖仅在开发时使用，部署到集群时需确保集群已安装对应版本的Spark。

2. Scala版本兼容

- Spark版本与Scala版本需匹配（如Spark 3.5.x对应Scala 2.12/2.13）。

3. 日志配置

- 可在 src/main/resources 添加 log4j.properties 自定义日志级别。

4. 集群部署

- 若集群使用HDFS，需将输入/输出路径改为HDFS路径（如 hdfs://nameservice1/input.txt ）。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2375301.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Spark，IDEA编写Maven项目

相关文章

半小时快速入门Spring AI：使用腾讯云编程助手CodeBuddy 开发简易聊天程序

【PostgreSQL数据分析实战：从数据清洗到可视化全流程】金融风控分析案例-10.3 风险指标可视化监控

geoserver发布arcgis瓦片地图服务（最新版本）

多边形,矩形,长方体设置

（C语言）超市管理系统（测试版）（指针）（数据结构）（二进制文件读写）

nRF Connect 下载

基于Arduino的贪吃蛇游戏机

【PmHub后端篇】Redis分布式锁：保障PmHub流程状态更新的关键

Starrocks的主键表涉及到的MOR Delete+Insert更新策略

《操作系统真象还原》第十四章（2）——文件描述符、文件操作基础函数

EMQX v5.0通过连接器和规则同步数据

2. 盒模型/布局模块 - 响应式产品展示页_案例：电商产品网格布局

LVGL的三层屏幕结构

【PDF】使用Adobe Acrobat dc添加水印和加密

Windows下安装mysql8.0

水滴Android面经及参考答案

工程师必读！ 3 个最常被忽略的 TDR 测试关键细节与原理

C++中的各式类型转换

Nacos源码—9.Nacos升级gRPC分析七

【计算机视觉】基于深度学习的实时情绪检测系统：emotion-detection项目深度解析