使用tar命令:
tar -zxvf 要解压的文件
-z 用gzip来压缩/解压缩文件
-x 从档案文件中释放文件
-v 显示详细信息
-f 使用档案名字,切记,这个参数是最后一个参数,后面只能接档案名
-
-
大魔王泛泛
2020-04-12
-
-
如果是本地Linux路径:file:///本地路径 如:file:///data/mobile
如果是HDFS上的路径:hdfs://localhost:9000/hdfs路径 如:hdfs://localhost:9000/data/mobile
-
-
大魔王泛泛
2020-04-12
-
-
如图所示:程序卡住不动
需要修改spark-env文件 添加如下配置即可
-
-
大魔王泛泛
2020-04-12
-
-
在spark-env 文件里添加如下字段即可:
export HADOOP_CONF_DIR=/home/hduser/hadoop/etc/hadoop
-
-
大魔王泛泛
2020-04-11
-
-
错误如下图:
修改 /etc/hosts 文件 把localhost 对应的ip改为自己的ip地址即可
-
-
大魔王泛泛
2020-04-11
-
-
重启一下jupyter 再重新运行一遍代码
-
-
大魔王泛泛
2020-04-11
-
-
concat_ws: 用指定的字符连接字符串
如:concat_ws("_", field1, field2),输出结果将会是:“field1_field2”
-
-
大魔王泛泛
2020-04-10
-
-
col()函数的作用是:将字符串转成column对象
-
-
大魔王泛泛
2020-04-10
-
-
报错原因:因为没有开启hive元数据库
执行hive --service metastore 命令即可
-
-
大魔王泛泛
2020-04-10
-
-
spark需要访问hive元数据库的时候开启
-
-
大魔王泛泛
2020-04-09
-
-
要使用hive-site.xml这个配置文件中的配置,使spark连接mysql 要不spark没法连接mysql
-
-
大魔王泛泛
2020-04-09
-
-
当前spark作业已执行完成 并不在需要spark环境的时候 我们执行spark-stop命令
-
-
大魔王泛泛
2020-04-09
-
-
worker数:conf/slaves指定
executors数: total-executor-core/executor-core
-
-
大魔王泛泛
2020-04-04
-
-
1.transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD
2.action是得到一个值,或者一个结果
3.所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发
-
-
大魔王泛泛
2020-04-04
-
-
使用RDD中的glom()函数 即可查看RDD的分区情况
-
-
大魔王泛泛
2020-04-04
-
-
查看java进程发现没有启动spark服务
执行命令 start-all.sh 即可
-
-
大魔王泛泛
2020-04-03
-
-
报错信息如下图
打开spark下的spark-env文件 添加如下内容
-
-
大魔王泛泛
2020-04-03
-
-
打开 spark下的spark-defaults.conf文件 添加如下内容并保存
-
-
大魔王泛泛
2020-04-03
-
-
修改Hadoop下面的etc/core文件 把里面的ip改成自己对应的IP
-
-
大魔王泛泛
2020-04-03
-
-
连接异常 需要修改/etc/hosts文件 改成自己的ip地址
-
-
大魔王泛泛
2020-04-03
-
-