CDA持证人阿涛哥

给Python做PySpark环境配置

1、pymysql包需要安装, 安装命令如下pip install -i https://pypi.douban.com/simple pymysql2、Googlechrome 安装一下 3、selenium, 安装命令如下pip install -i https://pypi.douban.com/simple pymysql selenium4、安装gensimconda install

39.8190 7 0
  • 关注作者
  • 收藏
clbe2x2

数据分析常用分析维度

1.对比分析 | 从时间、空间、标准等维度进行对比明确同比、环比、定基比的概念。同比是指本月第一周和上个月第一周进行对比;环比是指本周和上周进行对比;定基比是指所有数据同今年第一周进行对比。2.细分分析逐步分析:比如把某个市进一步拆解为区。维度交叉分析:比如分析付费SEM的新访客获取渠道和用户所在区域。3.漏斗分析分析是否出现不必要的过程,造成转化主进程受到伤害。是否有泄漏点,通过分

16.5295 4 4
  • 关注作者
  • 收藏
PGC123

使用rownumber的时候报错

使用rowNumber的时候报错,说没有这个属性是啥原因? 答:spark 从1.6 版本开始使用row_number代替,因此需要使用正确的函数调用方法。

0.0000 0 4
  • 关注作者
  • 收藏
PGC123

spark DtaFrame降序排序某一列的方式

spark DtaFrame降序排序某一列的方式有哪些?答:Spark默认的排序方式为升序,而降序的用法和python语言等又不一样。常见的方法有以下几种:方法一取反符号法 df.orderBy(-df["col2"]).show()方法二:对象方法desc df.orderBy(df["col2"].desc()).show()

0.0000 0 0
  • 关注作者
  • 收藏
PGC123

spark如何使用graphframe?

spark如何使用graphframe?spark 默认的graphx是不支持python接口的,该怎么办?答:graphframe是一个基于dataframe的spark包,提供Scala与python接口官网地址:https://graphframes.github.io/graphframes/docs/_site/index.html按如下方法即可在启动的时候加载graphfr

0.0000 0 2
  • 关注作者
  • 收藏
PGC123

jupyternotebook 不建议以root身份运行?

jupyternotebook 不建议以root身份运行?遇到下面的报错咋搞? 答:jupyter 默认不建议以root身份运行,可以在启动的到时候使用 --allow-root 跳过警告信息。jupyter notebook --allow-root也可以在配置文件中提前配置好c.NotebookApp.allow_root =True

23.1844 1 3
  • 关注作者
  • 收藏
PGC123

python 如何实现spark 计数?

python 如何实现spark 计数?我们通过pyspark 这种交互式的工具进行展示:lines= sc.textFile("README.md")#创建名为lines的RDDlines.count()# 统计RDD中的元素个数lines.first() #取元素的第一行

0.0000 0 4
  • 关注作者
  • 收藏
PGC123

使用jupyter notebook 来启动pyspark?

如何使用jupyter notebook 来启动pyspark?答:首先需要确保 SPARK_HOME及spark的bin目录添加到了环境变量path中然后anaconda的bin路径也要添加到path变量中。这些操作都执行完成之后就可以运行下面命令使用jupyter启动pyspark 了。PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER

0.0000 0 4
  • 关注作者
  • 收藏
PGC123

启动pyspark报错

启动pyspark报错,报错如下所示: 答:这个报错的原因是不允许远程登录,解决方法是修改jupyter的配置文件.jupyter/jupyter_notebook_config.py。修改如下变量的值c.NotebookApp.ip = '*' #重要。修改成"*"是为了不限定IP访问,如果指定某个IP运行,修改成该IP即可。如果此处维持为原始的localh

37.5000 1 1
  • 关注作者
  • 收藏
PGC123

启动pyspark的时候报错,这是为什么?

启动pyspark的时候报错,这是为什么?我是通过anaconda来安装的 答:anaconda的安装路径并没有添加到环境变量中,系统无法定位jupyter 的位置所以会报错。 解决方法; 将anaconda3/bin的路径放到.bashrc文件的PATH中。

0.0000 0 0
  • 关注作者
  • 收藏
PGC123

Centos7中安装anaconda3 pip报错

报错信息如下:[root@master bin]# pip-bash: /usr/local/anaconda3/bin/pip: /root/anaconda3/bin/python: bad interpreter: No such file or directory我之前是以root用户安装的,所以就安装到了/root目录下,但是后来发现其他用户用不了,就移动anaconda3文件到

600.0000 1 0
  • 关注作者
  • 收藏
PGC123

pip安装pyspark报错

Traceback (most recent call last): File "", line 1, in File "/tmp/pip-install-873kMH/pyspark/setup.py", line 224, in 'Programming Language :: Python :: I

0.0000 0 0
  • 关注作者
  • 收藏
PGC123

pyspark如何将DF的数据类型进行转化

pyspark如何将DF的字符串数据类型转化为int类型?我在pyspark中有dataframe。它的一些数字列包含'nan',因此当我读取数据并检查数据帧的模式时,这些列将具有“字符串”类型。如何将它们更改为int类型。我将'nan'值替换为0并再次检查模式,但是它也显示了这些列的字符串类型。以下代码:data_df = sqlContext.read.format("csv").loa

6.0259 2 1
  • 关注作者
  • 收藏
PGC123

pyspark创建RDD的方法有哪些?

pyspark创建RDD的方法有哪些?答:pyspark创建RDD有两种方法:一、parallelize(...) 集合 (元素list 或array)二、使用外部数据源创建 使用外部文件创建 data_in_file = sc.textFile('in_data.csv',2)

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

为什么会在pyspark在RDD中调用python第三方库失

为什么会在pyspark在RDD中调用python第三方库失败?运行pyspark时调用jieba分词, 发现可以成功import, 但是在RDD中调用分词函数时却提示没有 module jieba, 在本地虚拟机时没有这些问题答:jieba需要在集群中的每个节点上都要安装并且可以使用,还要注意用户及权限问题。

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

在运行pyspark的时候初始化sc失败

在运行pyspark的时候初始化sc失败,报错如下所示:19/01/30 15:42:55 ERROR SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: System memory 466092032 must be at least 471859200. Please incre

0.0000 0 5
  • 关注作者
  • 收藏
PGC123

pyspark中调用jieba,显示没有那个包

pyspark中调用jieba,显示没有那个包。local模式运行没问题,但是使用standalone模式运行的时候显示import jieba 错误,这是啥原因?答:由于spark框架是一种并行运算框架,当以local模式运行时,程序只在当前节点运行,pyspark用的只有当前的python环境。但是当以集群模式运行的时候每个节点的python必须一致,因为同一段代码会在各个worker节点

0.0000 0 4
  • 关注作者
  • 收藏
PGC123

import jieba报错

已经通过 sudo python setup.py install 来离线安装jieba 为啥 import jieba报错 ?答:我猜测你应该是在Linux系统中又安装了一个python环境.并且将新安装的python添加到了当前用户(非root用户)的环境变量中。安装的时候使用了sudo命令,因此你是调用的系统中原来的python环境安装的,但是使用的时候却是调用的当前用户的python

0.0000 0 1
  • 关注作者
  • 收藏
PGC123

pyspark如何创建RDD

PySpark 如何创建RDD呢?PySpark中有两种方法可以创建RDD:1、使用parallelize(...) 通过传入python集合创建,如:list或array。第二个参数可以是分区数。2、也可以引用文件(本地或者外部文件如HDFS等)data_from_file = sc.textFile(path,p_num) ,其中path是文件路径,p_num是分区数。

0.0000 0 5
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据