数据科学专业问答社区，好文章，一字千金--CDA答疑社区

在CentOS7中如何解压文件

使用tar命令： tar -zxvf 要解压的文件 -z 用gzip来压缩/解压缩文件 -x 从档案文件中释放文件 -v 显示详细信息 -f 使用档案名字，切记，这个参数是最后一个参数，后面只能接档案名

大魔王泛泛

2020-04-12

23.9617 1 2

怎样区分数据是放在本地还是HDFS上

如果是本地Linux路径：file:///本地路径如：file:///data/mobile 如果是HDFS上的路径：hdfs://localhost:9000/hdfs路径如：hdfs://localhost:9000/data/mobile

大魔王泛泛

2020-04-12

13.4610 1 1

运行spark-submit程序卡住不动

如图所示：程序卡住不动需要修改spark-env文件添加如下配置即可

大魔王泛泛

2020-04-12

4.4292 1 2

怎样把数据默认保存到HDFS上？

在spark-env 文件里添加如下字段即可： export HADOOP_CONF_DIR=/home/hduser/hadoop/etc/hadoop

大魔王泛泛

2020-04-11

1.4681 1 3

启动Spark Connection refused

错误如下图：修改 /etc/hosts 文件把localhost 对应的ip改为自己的ip地址即可

大魔王泛泛

2020-04-11

1.4681 1 1

No module named' pyspark'

重启一下jupyter 再重新运行一遍代码

大魔王泛泛

2020-04-11

1.4681 1 1

Spark SQL中 concat_ws()函数的用法

concat_ws: 用指定的字符连接字符串如：concat_ws("_", field1, field2)，输出结果将会是：“field1_field2”

大魔王泛泛

2020-04-10

1.6577 1 2

Spark SQL 中的col()函数

col()函数的作用是：将字符串转成column对象

大魔王泛泛

2020-04-10

1.6577 1 1

java. lang. Runt imeException

报错原因：因为没有开启hive元数据库执行hive --service metastore 命令即可

大魔王泛泛

2020-04-10

12.6228 2 4

什么时候需要启动hive元数据库

spark需要访问hive元数据库的时候开启

大魔王泛泛

2020-04-09

1.4597 2 2

Spark中conf下为什么要有hive配置文件

要使用hive-site.xml这个配置文件中的配置，使spark连接mysql 要不spark没法连接mysql

大魔王泛泛

2020-04-09

1.4597 2 0

Spark-stop指令什么时候需要执行？

当前spark作业已执行完成并不在需要spark环境的时候我们执行spark-stop命令

大魔王泛泛

2020-04-09

5.8272 3 1

怎样求出Spark中的work和Executor的数量

worker数：conf/slaves指定 executors数: total-executor-core/executor-core

大魔王泛泛

2020-04-04

2.7976 1 1

spark中的transform和action

1.transformation是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD 2.action是得到一个值，或者一个结果 3.所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发

大魔王泛泛

2020-04-04

2.7976 1 4