数据科学专业问答社区，好文章，一字千金--CDA答疑社区

RDD分为哪几个执行步骤

RDD中操作分为两个部分：转换（transformation）和行动（action）转换：将RDD转换成一个新的RDD 行动：对一个RDD进行求值或者输出 RDD的所有转换操作都是懒执行的，只有当执行action操作时spark才会真的去执行

大魔王泛泛

2020-02-22

37.5000 1 3

如何创建RDD？

创建RDD有三种方式： 1、可以从一个Scala集合里面创建： sc.parallelize(data)：把data这个数据并行化分片到节点 sc.makeRDD(data)：把data这个数据并行化分片到节点，它的实现就是parallelize sc.makeRDD(data[(T,seq)])：这种方式可以指定RDD的存放位置 2、根据外部数据源来创建，如sc

大魔王泛泛

2020-02-22

0.0000 0 2

简述Spark中的RDD

RDD（Resilient Distributed Dataset）：弹性分布式数据集它有几种特性： 1. RDD有不可变性 2. RDD是可分区的 3. RDD是弹性的：弹性表现在存储的灵活性、可容错性、分层计算、可调整数据的分布情况

大魔王泛泛

2020-02-22

0.0000 0 4

Spark和Hadoop之间的关系

Spark诞生并不是为了替代Hadoop，而是替换Hadoop框架的某些计算框架(MR)和查询引擎（Hive） Spark的核心是一种新的大数据内存计算框架，是基于Hadoop的存储(HDFS)与资源管理器(YARN)之上的计算框架

大魔王泛泛

2020-02-22

0.0000 0 5

Spark有哪些组件

Spark Core Spark SQL Spark Streaming MLlib GraphX

大魔王泛泛

2020-02-22

0.0000 0 4

Spark是什么？

Spark是一种大数据计算框架，是基于内存计算的框架，是一种通用的大数据快速处理引擎。

大魔王泛泛

2020-02-22

0.0000 0 0

什么是MapReduce?

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个master节点管理下的各个salve节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是”任务的分解与结果的汇总”。

大魔王泛泛

2020-02-22

0.0000 0 4

在scala中什么是颗粒化操作

将原来接收两个参数的一个函数转换成2个这就是颗粒化操作 def sum(a: Int, b: Int) = a b println(sum(2,3)) def sum1(a: Int)(b: Int) = a b println(sum1(2)(3))

大魔王泛泛

2020-02-22

0.0000 0 0

在scala中如何定义一个匿名函数

scala> val m = (x: Int) => x 1 scala> m(9) res0: Int = 10

大魔王泛泛

2020-02-22

0.0000 0 3

scala中模式匹配有哪些类型

1. 基本数据类型模式匹配 2. Array 模式匹配 3. List 模式匹配 4. case class 模式匹配 5. Some

大魔王泛泛

2020-02-22

0.0000 0 5

scala中模式匹配是什么？

在java中switch关键字对一个值进行判断根据条件进行不同的处理在scala中模式匹配也是参照这种模式得来的不过它要比java中的switch要强大的多

大魔王泛泛

2020-02-22

0.0000 0 0

scala中的Trait关键字

train 相当于定义了一个接口接口子类中必须重写 train cart { def cat(x: String): Unit = { } def dot(age: Int): Unit = { } }

大魔王泛泛

2020-02-21

0.0000 0 4

scala中的 case class 的作用

1. 实例化的时候可以不用new创建实例 2. 自动创建伴生对象并实现apply方法，这样创建对象时不用写new，因为只要写上类名就会自动调用它的构造方法 3.默认实现了hashCode、copy和equals方法 4. case class构造函数的参数是public级别的，我们可以直接访问； 5. 模式匹配用

大魔王泛泛

2020-02-21

0.0000 0 6

scala中object类实例化的对象是单例对象

object ApplyApp{ def main(args: Array[String]): Unit = { for(i <- 1 to 10){ ApplyTest.incre print(ApplyTest.count) } } } object ApplyTest{ var count = 0 def incre = { count = count 1 } } 结果是

大魔王泛泛

2020-02-21

0.0000 0 4

scala中的伴生类和伴生对象

class ApplyTest{ } object ApplyTest{ } class ApplyTest 是 object ApplyTest 的伴生类 object ApplyTest 是 class ApplyTest 的伴生对象伴生类和伴生对象是相对而言的

大魔王泛泛

2020-02-21

0.0000 0 3

scala中的主构造器和附属构造器

首先需要了解的一点是，在scala中，主构造器并不是以this方法定义，而是与类定义交织在一起的主构造器的参数直接放在类名之后，若不写则自动定义为空参： class Person(val name:String, val age:Int) { // 主构造器 def this(name:String, age:Int){// 附属构造器 //附属构造器的第一行代码必须要调用主构造器或者

大魔王泛泛

2020-02-21

0.0000 0 2