文章目录
- 1. 创建CSV文件
- 2. 上传CSV文件
- 3. 读取CSV文件生成RDD
- 4. 去掉标题行生成新RDD
- 5. 查看新生成的RDD
1. 创建CSV文件
- 执行命令:
vim scores.csv

- 在WPS里查看CSV文件

2. 上传CSV文件
- 执行命令:
hdfs dfs -put scores.csv /park

3. 读取CSV文件生成RDD
- 执行命令:
val lines = sc.textFile("hdfs://master:9000/park/scores.csv")

4. 去掉标题行生成新RDD
-
执行命令:
val firstLine = lines.first()

-
执行命令:
val secondToLastLines = lines.filter(_ != firstLine)

5. 查看新生成的RDD
- 执行命令:
secondToLastLines.collect.foreach(println)

通过上述步骤,我们能够成功地从 HDFS 读取 CSV 文件,去除标题行,并查看剩余的数据行。这为进一步的数据处理和分析打下了基础。








![[项目推荐]EmoLLM-心理健康大模型](https://img-blog.csdnimg.cn/direct/de6bd4e8e37c4e61a79c37b2551d466e.png)










