Spark大数据分析案例

news2026/4/2 19:09:33

案例概述

本案例将介绍如何在单机和集群环境下使用Apache Spark进行大数据分析，最终使用Python实现数据的可视化。我们将首先讲解Spark的安装与配置，然后展示如何在单机和集群环境中运行Spark。接下来，我们将使用Python编写Spark应用程序来分析一个公开的数据集。最后，我们将利用Python库如Matplotlib和Seaborn对数据进行可视化。

环境搭建

1. Spark单机环境

安装Java: Spark依赖于Java环境，因此首先需要安装Java SDK。

sudo apt-get update
sudo apt-get install openjdk-8-jdk
java -version

下载Spark: 从Apache Spark官网下载Spark的二进制文件。

wget https://downloads.apache.org/spark/spark-3.4.0/spark-3.4.0-bin-hadoop3.tgz
tar -xzvf spark-3.4.0-bin-hadoop3.tgz

配置环境变量:

编辑.bashrc文件：

nano ~/.bashrc

添加以下内容：

export SPARK_HOME=~/spark-3.4.0-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

应用配置：

source ~/.bashrc

启动Spark:

启动Spark的交互式Shell（Scala和Python）：

spark-shell  # Scala Shell
pyspark      # Python Shell

2. Spark集群环境

安装配置: 在每个节点上按单机环境的步骤安装Java和Spark。
配置SSH免密登录: 在master节点生成SSH密钥并分发到所有节点。
```
ssh-keygen -t rsa
ssh-copy-id node1
ssh-copy-id node2
```
配置Spark集群:

编辑$SPARK_HOME/conf/spark-env.sh文件，添加以下配置：
```
export SPARK_MASTER_HOST='master'
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
```
在slaves文件中列出所有节点的主机名。
启动Spark集群:

启动Spark Master和Worker节点：
```
start-master.sh
start-slaves.sh
```
访问Spark Web UI，查看集群状态：http://master:8080

数据集

我们将使用一个公开的股票市场数据集，该数据集包含历史股票价格和交易量数据。数据集可从Kaggle下载。下载后的数据将被上传到HDFS或本地文件系统中进行分析。

数据预处理

在分析之前，我们需要使用Python对数据进行预处理，将其转换为适合Spark处理的格式。使用pandas库读取和处理数据，然后保存为Parquet格式，以提高Spark的读取效率。

import pandas as pd

# 读取数据
df = pd.read_csv('all_stocks_5yr.csv')

# 数据清洗
df = df.dropna()

# 转换日期格式
df['date'] = pd.to_datetime(df['date'])

# 保存为Parquet文件
df.to_parquet('stocks_data.parquet')

Spark作业编写

使用Python编写一个Spark应用程序，分析股票价格的趋势。

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, avg, year

# 初始化SparkSession
spark = SparkSession.builder.appName("StockAnalysis").getOrCreate()

# 读取Parquet格式的数据
df = spark.read.parquet('stocks_data.parquet')

# 计算每年的平均股票价格
df_avg = df.withColumn('year', year(col('date'))) \
           .groupBy('year', 'Name') \
           .agg(avg('close').alias('avg_close'))

# 展示结果
df_avg.show()

# 保存结果为CSV文件
df_avg.write.csv('stocks_avg_price.csv', header=True)

spark.stop()

提交Spark作业

将预处理后的数据上传到HDFS或使用本地文件系统，然后提交Spark作业。

spark-submit --master yarn --deploy-mode cluster stock_analysis.py

数据可视化

Spark作业完成后，我们将结果导出到本地，并使用Python进行可视化展示。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 读取Spark作业的结果
df_result = pd.read_csv('stocks_avg_price.csv')

# 可视化每年每只股票的平均收盘价
plt.figure(figsize=(14, 7))
sns.lineplot(x='year', y='avg_close', hue='Name', data=df_result)
plt.title('Average Stock Prices by Year')
plt.show()

可能遇到的问题及解决方法

数据导入失败: 在大数据集上传到HDFS或本地文件系统时可能会出现网络超时或连接中断问题。建议将数据切分为较小块上传，并验证数据的完整性。
内存不足: 在处理大数据集时，Spark作业可能会因内存不足而失败。可以通过调整Spark的内存配置参数如--executor-memory和--driver-memory来解决。
集群节点失效: Spark集群中的某个节点可能会因硬件故障或网络问题而失效。Spark具有容错机制，会自动重新分配任务，但仍需定期监控节点状态。
数据倾斜问题: 在处理具有高度倾斜的数据集时，某些任务可能会耗尽资源。可以通过增加分区数或自定义分区器来均衡负载。
版本兼容性问题: 确保Spark集群上安装的Python版本与开发环境一致，以避免因版本不兼容导致的错误。