1、pymysql包需要安装, 安装命令如下
pip install -i https://pypi.douban.com/simple pymysql
2、Googlechrome 安装一下
3、selenium, 安装命令如下
pip install -i https://pypi.douban.com/simple pymysql selenium
4、安装gensim
conda install gensim
或者使用
pip install gensim
5、安装 jieba
conda install jieba
或
pip install -i https://pypi.douban.com/simple pymysql jieba
6、Windows 安装 spark
-----1)安装 jdk1.8
---------1.1 双击执行默认安装
---------1.2 配置JAVA_HOME环境变量 C:\Program Files\Java\jdk1.8.0_251
---------1.3 配置path环境变量
-----2) 安装Scala2.12
---------2.1 解压缩后放置在非中文、文件名不含空格的路径下
---------2.2 配置SCALA_HOME变量 C:\Users\edz\Desktop\NLP_BigData\Program\scala-2.12.14
---------2.3 配置path环境变量
-----3)安装spark3.0.3
---------3.1 解压缩后放置在非中文、文件名不含空格的路径下
-----4)安装Hadoop Windows版
---------4.1 解压缩后放置在非中文、文件名不含空格的路径下
-----5)将pyspark 与 py4j 模块复制到 python环境中去
----------5.1将SPARK_HOME/python/lib/下的 py4j-0.10.9-src.zip与 pyspark.zip 分别解压
----------5.2解压的方式选择解压到当前路径下即可,以免造成不必要的问题(import 的时候出错)
----------5.3 将解压后的 两个文件夹放到 Anaconda3/Lib/site-packages 这个文件夹中 ,这样就可以使用pyspark的local模式了
相关安装包下载
链接:https://pan.baidu.com/s/1FhVNq8CZ3o0wmMo7zAZwQg
提取码:tyuq








暂无数据