大魔王泛泛

在CentOS7中如何解压文件

使用tar命令: tar -zxvf 要解压的文件 -z 用gzip来压缩/解压缩文件 -x 从档案文件中释放文件 -v 显示详细信息 -f 使用档案名字,切记,这个参数是最后一个参数,后面只能接档案名

大魔王泛泛

2020-04-12

23.9617 1 2
  • 关注作者
  • 收藏

怎样区分数据是放在本地还是HDFS上

如果是本地Linux路径:file:///本地路径 如:file:///data/mobile 如果是HDFS上的路径:hdfs://localhost:9000/hdfs路径 如:hdfs://localhost:9000/data/mobile

大魔王泛泛

2020-04-12

13.4610 1 1
  • 关注作者
  • 收藏

运行spark-submit程序卡住不动

如图所示:程序卡住不动 需要修改spark-env文件 添加如下配置即可

大魔王泛泛

2020-04-12

4.4292 1 2
  • 关注作者
  • 收藏

怎样把数据默认保存到HDFS上?

在spark-env 文件里添加如下字段即可: export HADOOP_CONF_DIR=/home/hduser/hadoop/etc/hadoop

大魔王泛泛

2020-04-11

1.4681 1 3
  • 关注作者
  • 收藏

启动Spark Connection refused

错误如下图: 修改 /etc/hosts 文件 把localhost 对应的ip改为自己的ip地址即可

大魔王泛泛

2020-04-11

1.4681 1 1
  • 关注作者
  • 收藏

No module named' pyspark'

重启一下jupyter 再重新运行一遍代码

大魔王泛泛

2020-04-11

1.4681 1 1
  • 关注作者
  • 收藏

Spark SQL中 concat_ws()函数的用法

concat_ws: 用指定的字符连接字符串 如:concat_ws("_", field1, field2),输出结果将会是:“field1_field2”

大魔王泛泛

2020-04-10

1.6577 1 2
  • 关注作者
  • 收藏

Spark SQL 中的col()函数

col()函数的作用是:将字符串转成column对象

大魔王泛泛

2020-04-10

1.6577 1 1
  • 关注作者
  • 收藏

java. lang. Runt imeException

报错原因:因为没有开启hive元数据库 执行hive --service metastore 命令即可

大魔王泛泛

2020-04-10

12.6228 2 4
  • 关注作者
  • 收藏

什么时候需要启动hive元数据库

spark需要访问hive元数据库的时候开启

大魔王泛泛

2020-04-09

1.4597 2 2
  • 关注作者
  • 收藏

Spark中conf下为什么要有hive配置文件

要使用hive-site.xml这个配置文件中的配置,使spark连接mysql 要不spark没法连接mysql

大魔王泛泛

2020-04-09

1.4597 2 0
  • 关注作者
  • 收藏

Spark-stop指令什么时候需要执行?

当前spark作业已执行完成 并不在需要spark环境的时候 我们执行spark-stop命令

大魔王泛泛

2020-04-09

5.8272 3 1
  • 关注作者
  • 收藏

怎样求出Spark中的work和Executor的数量

worker数:conf/slaves指定 executors数: total-executor-core/executor-core

大魔王泛泛

2020-04-04

2.7976 1 1
  • 关注作者
  • 收藏

spark中的transform和action

1.transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD 2.action是得到一个值,或者一个结果 3.所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发

大魔王泛泛

2020-04-04

2.7976 1 4
  • 关注作者
  • 收藏

怎样查看RDD的分区情况

使用RDD中的glom()函数 即可查看RDD的分区情况

大魔王泛泛

2020-04-04

2.7976 1 3
  • 关注作者
  • 收藏

在jupyter notebook上运行pyspark报错

查看java进程发现没有启动spark服务 执行命令 start-all.sh 即可

大魔王泛泛

2020-04-03

2.1589 1 6
  • 关注作者
  • 收藏

spark history web页面打不开

报错信息如下图 打开spark下的spark-env文件 添加如下内容

大魔王泛泛

2020-04-03

2.1589 1 1
  • 关注作者
  • 收藏

启动spark历史服务器失败

打开 spark下的spark-defaults.conf文件 添加如下内容并保存

大魔王泛泛

2020-04-03

18.9926 2 3
  • 关注作者
  • 收藏

localhost:9000 failed 连接失败

修改Hadoop下面的etc/core文件 把里面的ip改成自己对应的IP

大魔王泛泛

2020-04-03

2.1589 1 1
  • 关注作者
  • 收藏

java.net.ConnectException

连接异常 需要修改/etc/hosts文件 改成自己的ip地址

大魔王泛泛

2020-04-03

2.1589 1 2
  • 关注作者
  • 收藏
<134520>