维克多阿涛

2022-01-11   阅读量: 30

Python PySpark

给Python做PySpark环境配置

1、pymysql包需要安装, 安装命令如下

pip install -i https://pypi.douban.com/simple pymysql


2、Googlechrome 安装一下


3、selenium, 安装命令如下

pip install -i https://pypi.douban.com/simple pymysql selenium


4、安装gensim

conda install gensim

或者使用

pip install gensim


5、安装 jieba

conda install jieba

pip install -i https://pypi.douban.com/simple pymysql jieba


6、Windows 安装 spark


-----1)安装 jdk1.8

---------1.1 双击执行默认安装

---------1.2 配置JAVA_HOME环境变量 C:\Program Files\Java\jdk1.8.0_251

---------1.3 配置path环境变量



-----2) 安装Scala2.12

---------2.1 解压缩后放置在非中文、文件名不含空格的路径下

---------2.2 配置SCALA_HOME变量 C:\Users\edz\Desktop\NLP_BigData\Program\scala-2.12.14

---------2.3 配置path环境变量


-----3)安装spark3.0.3

---------3.1 解压缩后放置在非中文、文件名不含空格的路径下


-----4)安装Hadoop Windows版

---------4.1 解压缩后放置在非中文、文件名不含空格的路径下



-----5)将pyspark 与 py4j 模块复制到 python环境中去

----------5.1将SPARK_HOME/python/lib/下的 py4j-0.10.9-src.zip与 pyspark.zip 分别解压

----------5.2解压的方式选择解压到当前路径下即可,以免造成不必要的问题(import 的时候出错)

----------5.3 将解压后的 两个文件夹放到 Anaconda3/Lib/site-packages 这个文件夹中 ,这样就可以使用pyspark的local模式了


相关安装包下载

链接:https://pan.baidu.com/s/1FhVNq8CZ3o0wmMo7zAZwQg

提取码:tyuq


15.8190 6 0 关注作者 收藏

评论(0)


暂无数据

推荐课程