执行代码报错没有spark

PGC123

2019-06-17 阅读量: 1034

执行代码报错没有spark

答：

spark 是spark2.0以后的spark程序入口，在spark-shell中默认初始化，如果不是使用spark-shell连接spark则z需要自定义spark.自定义方式如下

#使用pyspark shell 的时候默认生成sc spark,可以不初始化
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
import os
import time

#这两行根据自己的路径配置即可

os.environ['SPARK_HOME'] = r'D:\Pyspark_local\spark-2.3.3-bin-hadoop2.6'
os.environ['HADOOP_HOME'] = r'D:\Pyspark_local\Hadoop\winuntil'

#spark应用的配置比如应用的名称、运行模式等

sparkConf = SparkConf()\
        .setAppName('AppName')\
        .setMaster('local[2]')

#一般都会初始化sc,如果后面不用sc也可以不初始化
sc = SparkContext(sc)

#初始化spark
spark = SparkSession \
    .builder \
    .config(conf=sparkConf) \
    .getOrCreate()

37.5000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子