Pyspark环境搭建及案例(Windows)
Windows环境下开发pyspark程序一、环境准备Anaconda Python 虚拟环境1. 安装 Anaconda推荐下载地址https://www.anaconda.com/products/distribution安装时选择“Add Anaconda to PATH”会更方便。2、新建虚拟环境使用conda新建一个虚拟环境用于PySpark开发Python虚拟环境windows✅ 推荐使用python3.12兼容性好适合新项目。conda create -p D: \APP\Anaconda\envs\spark_env python3.122 、查看虚拟环境是否创建成功conda env list3、激活环境 并安装 PySpark 与必要依赖conda activate 环境名 #激活环境 pip install pyspark # 安装pyspark pip install psutil # 安装psutil二、安装hadoop \ winutils下载hadoop一镜像网站下载推荐镜像下载https://mirrors.aliyun.com/apache/hadoop/core/hadoop-3.4.2/下载文件hadoop-3.4.2.tar.gz或.zip解压到本地例如E:\hadoop-3.4.2二官方网站下载1、到官方网站下载 hadoop 这里我下载的是3.4.2版本2、点击下载3、双击安装包 解压到自己的磁盘中下载winutils Windows 下的 Hadoop 工具GitHub/Gitee 下载Gitee 镜像国内推荐https://gitee.com/nkuhyx/winutils 注意选择与你 Hadoop 版本匹配的bin文件夹1、配置winutils解压文件选择hadoop版本(我这里是选择3.3.0版本的)对应的文件夹bin目录下的hadoop.dll和winutils.exe文件将hadoop.dll和winutils.exe 拷贝到E:\hadoop-3.4.2\bin 、C:\Windows\System32下两个文件各拷贝一份到两个目录中三、配置环境变量1、配置系统变量HADOOP_HOME2、配置系统变量 path路径 添加%HADOOP_HOME%\bin4、环境测试打开cmdhadoop version四、解决问题1、问题1解决方法查看Java版本确定java 环境变量是否配置成功 这里最好用jdk8 也就是jdk 1.8. Hadoop 官方文档明确支持 JDK 8Hadoop 官方推荐的 Java 版本是 Java 8JDK 1.8官方文档Apache Hadoop 3.4.3 – Hadoop Cluster Setup 中明确写Java 8 is the only officially supported version for Hadoop 3.x.❌ JDK 9包括 11、17、22不再支持存在兼容性问题JDK 8 下载Temurinhttps://adoptium.net/temurin/releases/?version81找到hadoop\etc\hadoop这个目录下的hadoop-env.cmd这个命令脚本。修改JAVA_HOME我的JAVA的安装路径为D:\JDK1.8检查问题解决2、问题 2WinUtils.dll not found报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.✅ 解决方法确保 winutils.exe 和 hadoop.dll 已复制到E:\hadoop-3.4.2\bin\C:\Windows\System32\确保 Hadoop 路径配置正确HADOOP_HOME重启 CMD重新运行命令五、验证 PySpark 是否可用测试代码from pyspark.sql import SparkSession # 创建 SparkSession spark SparkSession.builder \ .appName(LocalTest) \ .master(local[*]) \ .getOrCreate() # 创建一个简单 DataFrame data [(Alice, 25), (Bob, 30)] df spark.createDataFrame(data, [Name, Age]) # 显示数据 df.show() # 停止 SparkSession spark.stop()输出--------| Name|Age|--------|Alice| 25|| Bob| 30|六、总结检查项是否完成使用 Anaconda 创建虚拟环境✔️激活环境并安装pyspark、psutil✔️下载 Hadoop 3.4.2 并解压至指定路径✔️下载 winutils3.4.2 版本对应✔️复制winutils.exe和hadoop.dll到 bin 和 System32✔️配置HADOOP_HOME和PATH✔️配置JAVA_HOME指向 JDK 8✔️运行hadoop version测试成功✔️PySpark 测试代码运行通过✔️推荐资源不想下载可以直接从我网盘网盘获取 资源链接Hadoop 官方文档https://hadoop.apache.org/docs/stable/JDK 8 下载Temurinhttps://adoptium.net/temurin/releases/?version8winutilsGitee 镜像https://gitee.com/nkuhyx/winutilsHadoop 3.4.2 下载https://mirrors.aliyun.com/apache/hadoop/core/hadoop-3.4.2/
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2468228.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!