数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

大魔王泛泛

在2020年02月18日加入
点赞能量: 100%
点赞价值: 2.3

什么是SparkCore？

将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API

大魔王泛泛

2020-02-24

0.0000 0 1

spark为什么会比Mapreduce快？

1.内存迭代 2.RDD设计 3.算子的设计

大魔王泛泛

2020-02-24

0.0000 0 2

spark中窄依赖的函数有哪些

map, filter, union, join, mapPartitions, mapValues

大魔王泛泛

2020-02-24

0.0000 0 0

spark在什么场景比不上MapReduce?

Spark 在内存中处理数据，需要很大的内存容量。如果 Spark 与其它资源需求型服务一同运行在YARN 上，又或者数据块太大以至于不能完全读入内存，此时 Spark 的性能就会有很大的降低，此时Spark可能比不上MapReduce。当对数据的操作只是简单的ETL的时候，Spark比不上MapReduce

大魔王泛泛

2020-02-24

0.0000 0 0

spark中数据的位置是被谁管理的？

每个数据分片都对应具体物理位置，数据的位置是被blockManager，无论数据是在磁盘，内存还是tacyan，都是由blockManager管理

大魔王泛泛

2020-02-24

0.0000 0 3

spark中driver是什么？

一个Spark作业运行时包括一个Driver进程，也是作业的主进程，负责向集群申请资源，生成Stage并调度Task到Executor上

大魔王泛泛

2020-02-24

0.0000 0 2

为什么要进行序列化?

序列化可以减少数据的体积，减少存储空间，高效存储和传输数据

大魔王泛泛

2020-02-24

0.0000 0 4

map和flatmap的区别？

map：对rdd每个元素转换，文件中每一行的数据返回一个数组对象 flatmap:对rdd每个元素转换，然后再扁平化将所有对象合并成一个对象

大魔王泛泛

2020-02-24

0.0000 0 2

spark如何处理不能被序列化的对象？

将不能序列化的内容封装成object

大魔王泛泛

2020-02-24

0.0000 0 1

spark中我们应该尽量避免使用什么类型的算子

应尽量避免使用reduceByKey、groupByKey、join、dictinct，repartition等会进行shuffle的算子，没有shuffle操作或者仅有较少的shuffle操作的Spark作业，可以大大减少性能开销。

大魔王泛泛

2020-02-24

0.0000 0 3

常规的容错方式有哪几种？

数据检查点(checkpoint)，会发生拷贝，浪费资源记录数据的更新，每次更新都会记录下来，复杂且消耗性能

大魔王泛泛

2020-02-24

0.0000 0 0

数据本地性是在哪个阶段确定的？

Dag在划分stage时确定。

大魔王泛泛

2020-02-24

0.0000 0 4

cache是不是action操作？

Cache不是action操作

大魔王泛泛

2020-02-24

0.0000 0 2

ReduceByKey是action算子吗

ReduceByKey是transform算子，reduce是action算子

大魔王泛泛

2020-02-24

0.0000 1 5

spark中的数据倾斜的现象

数据倾斜的现象：多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。

大魔王泛泛

2020-02-24

0.0000 0 4

spark中cache和persist的区别

cache：缓存数据，默认是缓存在内存中，其本质还是调用persist persist:缓存数据，有丰富的数据缓存策略。数据可以保存在内存也可以保存在磁盘中，使用的时候指定对应的缓存级别就可以了。

大魔王泛泛

2020-02-24

0.0000 0 2

spark内存溢出有哪几种

driver端的内存溢出 map过程产生大量对象导致内存溢出数据不平衡导致内存溢出 shuffle后内存溢出 standalone模式下资源分配不均匀导致内存溢出

大魔王泛泛

2020-02-24

0.0000 0 5

spark-submit的时候如何引入外部jar包

在通过spark-submit提交任务时，可以通过添加配置参数来指定 –driver-class-path 外部jar包 –jars 外部jar包

大魔王泛泛

2020-02-24

0.0000 0 2

spark中如何划分stage

Stage划分的依据就是宽依赖，何时产生宽依赖，例如reduceByKey,groupByKey的算子，会导致宽依赖的产生

大魔王泛泛

2020-02-24

0.0000 0 2

Spark中的宽依赖和窄依赖

宽依赖：是指父RDD的每一个分区最多被一个子RDD的分区所用窄依赖：是指子RDD的分区依赖于父RDD的多个分区或所有分区

大魔王泛泛

2020-02-22

37.5000 1 1

<1…171819…20>