cda

数字化人才认证

首页 > 行业图谱 >

1234 1/4

spark入门必读:核心概念介绍及常用 RDD 操作

spark入门必读:核心概念介绍及常用RDD操作
2020-07-13
作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...

 RDD 是什么?它有哪些基本属性?

RDD是什么?它有哪些基本属性?
2020-07-07
RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知 ...
MapReduce和Spark的区别是什么?
2023-03-23
MapReduce和Spark是两个广泛使用的分布式计算框架,用于处理大规模数据。虽然它们都可以在大数据集合上运行,但它们之间有一些关键区别。 MapReduce最初由Google开发,旨在通过分布式计算来处理大数据集。它将任务分 ...
大数据零基础学习
2022-11-07
虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识,寻找自身的不足,查漏补缺非常重要。今天小编给大家 ...
2017将至,大数据准备好了么
2016-12-03
2017将至,大数据准备好了么 去年,大数据市场完全围绕Hadoop生态系统周围的技术。从那时起,重心一直是通过已证明增加收入、提高生产力和降低风险而带来投资回报的使用场合,“将大数据切实利用起来”。现在, ...
做大数据必须了解的多种处理框架
2016-11-28
做大数据必须了解的多种处理框架 本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是 ...
2016年大数据技术发展趋势概述
2016-10-30
2016年大数据技术发展趋势概述 对大规模数据集进行分析能够帮助我们掌握隐藏模式、客户偏好、未知关联性、市场趋势以及其它极具价值的业务信息。在此基础之上,企业能够实现成本削减、促进决策制定并提供更多有 ...
大数据技能知多少
2016-10-20
大数据技能知多少 说起“大数据”一词,也是真正被吵够了。做个简单的统计也叫大数据,做个表格、画个图形出来,就叫大数据了。言谈间凡是不和“大数据”沾边,就感觉已经落伍了。其实,很多人除了知道简单的统 ...
建立数据场的七大技能
2016-03-29
建立数据场的七大技能 成为数据极客,建立自己的数据场需要哪些技能呢?遇到普通的数据,通过SQL做分析。如果数据量比较大,可以使用Hadoop等大数据框架处理。在深入挖掘上,可用Python或者R语言进行编程。 0 ...

玩转数据分析,必知必会的7款Python工具!

玩转数据分析,必知必会的7款Python工具!
2016-03-22
玩转数据分析,必知必会的7款Python工具 如果你有志于做一个数据专家,你就应该保持一颗好奇心,总是不断探索,学习,问各种问题。在线入门教程和视频教程能帮你走出第一步,但是最好的方式就是通过熟悉各种已 ...

大数据技术人员工具包最全集合

大数据技术人员工具包最全集合
2016-03-15
大数据技术人员工具包最全集合 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、 ...

数据科学家和大数据技术人员工具包汇总

数据科学家和大数据技术人员工具包汇总
2016-03-14
本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址。为数据科学教育和知识分享 ...

2分钟读懂Hadoop和Spark的异同

2分钟读懂Hadoop和Spark的异同
2016-03-06
2分钟读懂Hadoop和Spark的异同 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么 ...

美国大数据工程师面试攻略有哪些

美国大数据工程师面试攻略有哪些
2016-02-26
美国大数据工程师面试攻略有哪些 在多年工作中,除了对技术的不懈追求,也积累了大量的面试经验,从国内的一线互联网公司百度、阿里巴巴、奇虎、人人,到美国一线公司Facebook、Google、Linkedin、Twitter、Ama ...

大数据工具比较-R语言和Spark谁更强

大数据工具比较-R语言和Spark谁更强
2016-02-20
大数据工具比较-R语言和Spark谁更强 现如今的大数据工具真是多,在数据分析师工作中,使用哪些工具更加合适呢,r语言和Spark机器学习那个中有市场率更高些,那个在运算中更快更强些呢? Spark的机器学习库 ...

sparkSQL是什么,如何理解?

sparkSQL是什么,如何理解?
2020-08-11
一、sparkSQL简介 1.sparkSQL定义 sparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 2.sparkSQL来源 要想了解sparkSQL来源, ...

量化研究如何“知其然知其所以然,知其然知其何以用”

量化研究如何“知其然知其所以然,知其然知其何以用”
2020-07-22
说量化研究难, “知其然知其所以然,知其然知其何以用” 7月25-27日三天 经管之家学术研讨会 特邀请量化研究大师和当红社会定量分析名师王存同教授 带我们从线性回归走向因果推断! 因果推 ...

2020年因果推断专题讨论会从线性回归走向因果推断

2020年因果推断专题讨论会从线性回归走向因果推断
2020-06-23
因果推断(causalinference),缘起人类的本能或经常自发提出的一个简单问题:为什么(why)?事实上,作为科学研究的核心与宗旨——因果推断就是关于此问题的严肃思考、科学验证或因果分析(causal analysis)。目前,因 ...

加快python算法的四个方法:Dask篇

加快python算法的四个方法:Dask篇
2020-06-08
CDA数据分析师 出品 相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下python的计算时间,减少大家在算法上的等待 ...

sparkSQL和spark有什么区别?

sparkSQL和spark有什么区别?
2020-05-14
Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之,sparkSQL是Spark的前身,是在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。 sparkSQL提供了一 ...
1234 1/4

OK