PySpark-数据科学专业问答社区-CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

CDA持证人阿涛哥

给Python做PySpark环境配置

1、pymysql包需要安装, 安装命令如下pip install -i https://pypi.douban.com/simple pymysql2、Googlechrome 安装一下 3、selenium, 安装命令如下pip install -i https://pypi.douban.com/simple pymysql selenium4、安装gensimconda install

39.8190 7 0

数据分析常用分析维度

1.对比分析 | 从时间、空间、标准等维度进行对比明确同比、环比、定基比的概念。同比是指本月第一周和上个月第一周进行对比；环比是指本周和上周进行对比；定基比是指所有数据同今年第一周进行对比。2.细分分析逐步分析：比如把某个市进一步拆解为区。维度交叉分析：比如分析付费SEM的新访客获取渠道和用户所在区域。3.漏斗分析分析是否出现不必要的过程，造成转化主进程受到伤害。是否有泄漏点，通过分

16.5295 4 4

使用rownumber的时候报错

使用rowNumber的时候报错，说没有这个属性是啥原因？答：spark 从1.6 版本开始使用row_number代替，因此需要使用正确的函数调用方法。

0.0000 0 4

spark DtaFrame降序排序某一列的方式

spark DtaFrame降序排序某一列的方式有哪些？答：Spark默认的排序方式为升序，而降序的用法和python语言等又不一样。常见的方法有以下几种：方法一取反符号法 df.orderBy(-df["col2"]).show()方法二：对象方法desc df.orderBy(df["col2"].desc()).show()

0.0000 0 0

spark如何使用graphframe?

spark如何使用graphframe?spark 默认的graphx是不支持python接口的，该怎么办？答：graphframe是一个基于dataframe的spark包，提供Scala与python接口官网地址：https://graphframes.github.io/graphframes/docs/_site/index.html按如下方法即可在启动的时候加载graphfr

0.0000 0 2

jupyternotebook 不建议以root身份运行？

jupyternotebook 不建议以root身份运行？遇到下面的报错咋搞？答：jupyter 默认不建议以root身份运行，可以在启动的到时候使用 --allow-root 跳过警告信息。jupyter notebook --allow-root也可以在配置文件中提前配置好c.NotebookApp.allow_root =True

23.1844 1 3

python 如何实现spark 计数？

python 如何实现spark 计数？我们通过pyspark 这种交互式的工具进行展示：lines= sc.textFile("README.md")#创建名为lines的RDDlines.count()# 统计RDD中的元素个数lines.first() #取元素的第一行

0.0000 0 4

使用jupyter notebook 来启动pyspark?

如何使用jupyter notebook 来启动pyspark?答：首先需要确保 SPARK_HOME及spark的bin目录添加到了环境变量path中然后anaconda的bin路径也要添加到path变量中。这些操作都执行完成之后就可以运行下面命令使用jupyter启动pyspark 了。PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER

0.0000 0 4

启动pyspark报错

启动pyspark报错，报错如下所示：答：这个报错的原因是不允许远程登录，解决方法是修改jupyter的配置文件.jupyter/jupyter_notebook_config.py。修改如下变量的值c.NotebookApp.ip = '*' #重要。修改成"*"是为了不限定IP访问，如果指定某个IP运行，修改成该IP即可。如果此处维持为原始的localh

37.5000 1 1

启动pyspark的时候报错，这是为什么？

启动pyspark的时候报错，这是为什么？我是通过anaconda来安装的答：anaconda的安装路径并没有添加到环境变量中，系统无法定位jupyter 的位置所以会报错。解决方法; 将anaconda3/bin的路径放到.bashrc文件的PATH中。

0.0000 0 0

Centos7中安装anaconda3 pip报错

报错信息如下：[root@master bin]# pip-bash: /usr/local/anaconda3/bin/pip: /root/anaconda3/bin/python: bad interpreter: No such file or directory我之前是以root用户安装的，所以就安装到了/root目录下，但是后来发现其他用户用不了，就移动anaconda3文件到

600.0000 1 0

pip安装pyspark报错

Traceback (most recent call last): File "", line 1, in File "/tmp/pip-install-873kMH/pyspark/setup.py", line 224, in 'Programming Language :: Python :: I

0.0000 0 0

pyspark如何将DF的数据类型进行转化

pyspark如何将DF的字符串数据类型转化为int类型？我在pyspark中有dataframe。它的一些数字列包含'nan'，因此当我读取数据并检查数据帧的模式时，这些列将具有“字符串”类型。如何将它们更改为int类型。我将'nan'值替换为0并再次检查模式，但是它也显示了这些列的字符串类型。以下代码：data_df = sqlContext.read.format("csv").loa

6.0259 2 1

pyspark创建RDD的方法有哪些？

pyspark创建RDD的方法有哪些？答：pyspark创建RDD有两种方法:一、parallelize(...) 集合（元素list 或array）二、使用外部数据源创建使用外部文件创建 data_in_file = sc.textFile('in_data.csv',2)

0.0000 0 3

为什么会在pyspark在RDD中调用python第三方库失

为什么会在pyspark在RDD中调用python第三方库失败？运行pyspark时调用jieba分词，发现可以成功import，但是在RDD中调用分词函数时却提示没有 module jieba，在本地虚拟机时没有这些问题答：jieba需要在集群中的每个节点上都要安装并且可以使用，还要注意用户及权限问题。

0.0000 0 3

在运行pyspark的时候初始化sc失败

在运行pyspark的时候初始化sc失败，报错如下所示：19/01/30 15:42:55 ERROR SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: System memory 466092032 must be at least 471859200. Please incre

0.0000 0 5

pyspark中调用jieba，显示没有那个包

pyspark中调用jieba，显示没有那个包。local模式运行没问题，但是使用standalone模式运行的时候显示import jieba 错误，这是啥原因？答：由于spark框架是一种并行运算框架，当以local模式运行时，程序只在当前节点运行，pyspark用的只有当前的python环境。但是当以集群模式运行的时候每个节点的python必须一致，因为同一段代码会在各个worker节点

0.0000 0 4

import jieba报错

已经通过 sudo python setup.py install 来离线安装jieba 为啥 import jieba报错？答：我猜测你应该是在Linux系统中又安装了一个python环境.并且将新安装的python添加到了当前用户（非root用户）的环境变量中。安装的时候使用了sudo命令，因此你是调用的系统中原来的python环境安装的，但是使用的时候却是调用的当前用户的python

0.0000 0 1

pyspark如何创建RDD

PySpark 如何创建RDD呢？PySpark中有两种方法可以创建RDD：1、使用parallelize(...) 通过传入python集合创建，如：list或array。第二个参数可以是分区数。2、也可以引用文件（本地或者外部文件如HDFS等）data_from_file = sc.textFile(path,p_num) ,其中path是文件路径，p_num是分区数。

0.0000 0 5

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

暂无数据