RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。
RDD提供了一组丰富的操作以支持常见的数据运算,分为“行动”(Action)和“转换”(Transformation)两种类型,前者用于执行计算并指定输出的形式,后者指定RDD之间的相互依赖关系。两类操作的主要区别是,转换操作(比如map、filter、join等)接受RDD并返回RDD,而行动操作(比如count、collect等)接受RDD但是返回非RDD(即输出一个值或结果)。
RDD采用了惰性调用,即在RDD的执行过程中,真正的计算发生在RDD的“行动”操作,对于“行动”之前的所有“转换”操作,Spark只是记录下“转换”操作应用的一些基础数据集以及RDD生成的轨迹,即相互之间的依赖关系,而不会触发真正的计算。
RDD的五大基本属性
1)A list of partitions 一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。
2)A function for computing each split 一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的,每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合,不需要保存每次计算的结果。
3)A list of dependencies on other RDDs RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD,所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时,Spark可以通过这个依赖关系重新计算丢失的分区数据,而不是对RDD的所有分区进行重新计算。
4)Optionally,a Partitioner for key-value RDDs 一个Partitioner,即RDD的分片函数。当前Spark中实现了两种类型的分片函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangePartitioner。只有对于key-value的RDD,才会有Partitioner,非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量,也决定了parent RDD Shuffle输出时的分片数量。
5) Optionally,a list of preferred locations to compute each split 一个列表,存储存取每个Partition的优先位置(preferred location)。对于一个HDFS文件来说,这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念,Spark在进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。
数据分析咨询请扫描二维码
人工智能(AI)正迅速成为现代科技的核心,推动着各行各业的革新与发展。大学人工智能专业的学习内容非常广泛,涵盖了计算机科学 ...
2024-09-20数据分析师考证:CDA认证的全面指南 数据分析在现代商业和科技领域中的重要性日益增加,越来越多的企业依赖数据驱动决策来提升竞 ...
2024-09-20网络爬虫(Web Crawler),也被称为网络蜘蛛、网络机器人或网页抓取器,是一种自动化程序或脚本,用于在互联网上自动抓取和收集 ...
2024-09-20数据分析是现代商业和科学研究中不可或缺的一部分。Python凭借其强大的库和易用性,成为数据分析领域的首选编程语言。本文将深入 ...
2024-09-20数据分析师是一个需要多方面技能和特质的职业,适合做数据分析师的人通常具备以下特质和技能: 对数据有浓厚兴趣:数据爱好者, ...
2024-09-20CDA证书的考试内容涵盖了多个模块,具体包括: 数据分析概述与职业操守:包括数据分析的基本概念、方法论、角色,数据分析师的 ...
2024-09-20数字化转型的核心在于利用数字技术来推动企业或组织在业务模式、流程、文化和价值链等方面的根本性变革,以提高效率、创造新的增 ...
2024-09-20作为一名资深数据分析师,拥有CDA证书可以显著提升你的职业竞争力,并为你带来更多的职业发展机会。CDA证书在金融、电信、零售、 ...
2024-09-20数据分析师的月薪因地区、经验、技能和行业而异。根据2024年的数据,数据分析师在中国的平均月薪约为11,910元,但这个数字可能因 ...
2024-09-20CDA证书在统计学领域的应用非常广泛,特别是在数据分析和业务决策中。以下是CDA Level II级别中一些与统计学相关的应用: 数据 ...
2024-09-20统计学结合CDA证书可以为就业提供多样化的方向和广阔的前景。以下是一些主要的就业方向: 政府部门:统计学专业毕业生可以在政 ...
2024-09-20CDA认证分为三个级别,每个级别对应不同的数据分析技能: CDA Level I:这是入门级别,主要面向零基础就业转行者、应届毕业生以 ...
2024-09-20在职场中,将CDA(Certified Data Analyst)证书转化为实际的业务成果和价值,可以通过以下几个步骤实现: 提升专业技能:CDA证 ...
2024-09-20考取CDA(Certified Data Analyst)证书后,可以通过以下几个策略在职场中提升薪资: 深化专业技能:持续学习和实践,提高数据 ...
2024-09-20数字经济专业是一门综合性、交叉性的学科,旨在培养具备扎实经济学基础和熟练数字技能的数据分析与决策人才。该专业的课程内容丰 ...
2024-09-19数据分析师这个职位本身并不特定于性别,男性和女性都可以从事这项工作。至于是否会觉得累,这取决于多种因素,包括个人的工作经 ...
2024-09-19CDA认证考试的通过率会根据不同年份和考试难度有所变化。根据CDA数据科学研究院发布的数据,第十一届CDA认证考试的通过率如下: ...
2024-09-19大数据技术毕业生在职场中脱颖而出需要从多个方面进行努力和规划。首先,明确职业目标是关键一步。了解大数据相关的职业岗位,如 ...
2024-09-19在数据分析领域,有几个专业认证是值得考虑的,它们可以帮助提升你的专业技能,并在就业市场上增加竞争力。以下是一些推荐的认证 ...
2024-09-19金融数学专业是一门结合了数学、统计学和经济学的交叉学科,旨在培养具备扎实的数学基础和金融理论知识的复合型人才。随着全球 ...
2024-09-19