大魔王泛泛

什么是SparkCore?

将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API

大魔王泛泛

2020-02-24

0.0000 0 1
  • 关注作者
  • 收藏

spark为什么会比Mapreduce快?

1.内存迭代 2.RDD设计 3.算子的设计

大魔王泛泛

2020-02-24

0.0000 0 2
  • 关注作者
  • 收藏

spark中窄依赖的函数有哪些

map, filter, union, join, mapPartitions, mapValues 

大魔王泛泛

2020-02-24

0.0000 0 0
  • 关注作者
  • 收藏

spark在什么场景比不上MapReduce?

Spark 在内存中处理数据,需要很大的内存容量。如果 Spark 与其它资源需求型服务一同运行在YARN 上,又或者数据块太大以至于不能完全读入内存,此时 Spark 的性能就会有很大的降低,此时Spark可能比不上MapReduce。当对数据的操作只是简单的ETL的时候,Spark比不上MapReduce

大魔王泛泛

2020-02-24

0.0000 0 0
  • 关注作者
  • 收藏

spark中数据的位置是被谁管理的?

每个数据分片都对应具体物理位置,数据的位置是被blockManager,无论数据是在磁盘,内存还是tacyan,都是由blockManager管理

大魔王泛泛

2020-02-24

0.0000 0 3
  • 关注作者
  • 收藏

spark中driver是什么?

一个Spark作业运行时包括一个Driver进程,也是作业的主进程,负责向集群申请资源,生成Stage并调度Task到Executor上

大魔王泛泛

2020-02-24

0.0000 0 2
  • 关注作者
  • 收藏

为什么要进行序列化?

序列化可以减少数据的体积,减少存储空间,高效存储和传输数据

大魔王泛泛

2020-02-24

0.0000 0 4
  • 关注作者
  • 收藏

map和flatmap的区别?

map:对rdd每个元素转换,文件中每一行的数据返回一个数组对象 flatmap:对rdd每个元素转换,然后再扁平化将所有对象合并成一个对象

大魔王泛泛

2020-02-24

0.0000 0 2
  • 关注作者
  • 收藏

spark如何处理不能被序列化的对象?

将不能序列化的内容封装成object

大魔王泛泛

2020-02-24

0.0000 0 1
  • 关注作者
  • 收藏

spark中我们应该尽量避免使用什么类型的算子

应尽量避免使用reduceByKey、groupByKey、join、dictinct,repartition等会进行shuffle的算子,没有shuffle操作或者仅有较少的shuffle操作的Spark作业,可以大大减少性能开销。

大魔王泛泛

2020-02-24

0.0000 0 3
  • 关注作者
  • 收藏

常规的容错方式有哪几种?

数据检查点(checkpoint),会发生拷贝,浪费资源 记录数据的更新,每次更新都会记录下来,复杂且消耗性能

大魔王泛泛

2020-02-24

0.0000 0 0
  • 关注作者
  • 收藏

数据本地性是在哪个阶段确定的?

Dag在划分stage时确定。

大魔王泛泛

2020-02-24

0.0000 0 4
  • 关注作者
  • 收藏

cache是不是action操作?

Cache不是action操作

大魔王泛泛

2020-02-24

0.0000 0 2
  • 关注作者
  • 收藏

ReduceByKey是action算子吗

ReduceByKey是transform算子,reduce是action算子

大魔王泛泛

2020-02-24

0.0000 1 5
  • 关注作者
  • 收藏

spark中的数据倾斜的现象

数据倾斜的现象 :多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。

大魔王泛泛

2020-02-24

0.0000 0 4
  • 关注作者
  • 收藏

spark中cache和persist的区别

cache:缓存数据,默认是缓存在内存中,其本质还是调用persist persist:缓存数据,有丰富的数据缓存策略。数据可以保存在内存也可以保存在磁盘中,使用的时候指定对应的缓存级别就可以了。

大魔王泛泛

2020-02-24

0.0000 0 2
  • 关注作者
  • 收藏

spark内存溢出有哪几种

driver端的内存溢出 map过程产生大量对象导致内存溢出  数据不平衡导致内存溢出  shuffle后内存溢出  standalone模式下资源分配不均匀导致内存溢出

大魔王泛泛

2020-02-24

0.0000 0 5
  • 关注作者
  • 收藏

spark-submit的时候如何引入外部jar包

在通过spark-submit提交任务时,可以通过添加配置参数来指定  –driver-class-path 外部jar包 –jars 外部jar包

大魔王泛泛

2020-02-24

0.0000 0 2
  • 关注作者
  • 收藏

spark中如何划分stage

Stage划分的依据就是宽依赖,何时产生宽依赖,例如reduceByKey,groupByKey的算子,会导致宽依赖的产生

大魔王泛泛

2020-02-24

0.0000 0 2
  • 关注作者
  • 收藏

Spark中的宽依赖和窄依赖

宽依赖:是指父RDD的每一个分区最多被一个子RDD的分区所用 窄依赖:是指子RDD的分区依赖于父RDD的多个分区或所有分区

大魔王泛泛

2020-02-22

37.5000 1 1
  • 关注作者
  • 收藏
<117181920>