cda

数字化人才认证

首页 > 行业图谱 >

1234 1/4

spark入门必读:核心概念介绍及常用 RDD 操作

spark入门必读:核心概念介绍及常用RDD操作
2020-07-13
作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...

 RDD 是什么?它有哪些基本属性?

RDD是什么?它有哪些基本属性?
2020-07-07
RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知 ...
如何对大规模数据进行分布式处理?
2023-08-21
大规模数据处理是当今信息时代的挑战之一。传统的集中式数据处理方法已经无法满足迅速增长的数据需求。为了解决这个问题,分布式数据处理应运而生。分布式数据处理是指将庞大的数据集分割成多个小数据块,并通过在多 ...
大数据处理常用的框架有哪些?
2023-06-30
大数据处理是当今互联网时代的重要任务之一,因为随着技术的发展,人们不断产生着海量数据。但是,如何有效地处理这些数据并从中获取有用的信息,是一个非常具有挑战性的问题。为了应对这个挑战,许多大数据处理框架 ...
Spark排序的原理?
2023-04-18
Spark是一款开源的分布式计算框架,支持运行在集群中的大规模数据处理任务。在Spark中,排序是一项非常重要的操作,它能够让我们更加高效地处理和分析大量数据。本文将探讨Spark排序的原理以及其实现方式。 Spark排 ...
为什么Spark比MapReduce快?
2023-03-31
Spark和MapReduce都是大数据处理的框架,但是Spark相对于MapReduce来说,有更快的速度。这主要是因为它拥有优秀的内存管理、任务调度和数据缓存功能。 首先,Spark使用内存而不是磁盘进行计算,这使得Spark能够在内 ...
MapReduce和Spark的区别是什么?
2023-03-23
MapReduce和Spark是两个广泛使用的分布式计算框架,用于处理大规模数据。虽然它们都可以在大数据集合上运行,但它们之间有一些关键区别。 MapReduce最初由Google开发,旨在通过分布式计算来处理大数据集。它将任务分 ...
大数据零基础学习
2022-11-07
虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识,寻找自身的不足,查漏补缺非常重要。今天小编给大家 ...

Spark是什么?用Spark进行数据分析

Spark是什么?用Spark进行数据分析
2018-07-18
Spark是什么?用Spark进行数据分析 1什么是Apache Spark? Apache Spark是一个为速度和通用目标设计的集群计算平台。 从速度的角度看,Spark从流行的MapReduce模型继承而来,可以更有效地支持多种类型的 ...
五种大数据处理架构
2018-03-02
五种大数据处理架构 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算 ...

大数据驱动证券行业数字化转型

大数据驱动证券行业数字化转型
2017-08-29
大数据驱动证券行业数字化转型 从十七世纪初第一只股票在欧洲诞生以来,证券及其交易就在资本市场上扮演着重要角色,在信息革命的时代,证券行业也行走在数字化转型的前列。今天,各种证券业务信息系统已经积累 ...
6个公司的大数据岗位的面试经验
2017-01-15
6个公司的大数据岗位的面试经验 本人住在有人间天堂之称的城市,6年多开发经验,最近2年主要在做大数据相关的开发,最近考虑换工作,基本也只考虑大数据相关岗位。目前新工作已经找好,但想分享一下最近面试的 ...
2017将至,大数据准备好了么
2016-12-03
2017将至,大数据准备好了么 去年,大数据市场完全围绕Hadoop生态系统周围的技术。从那时起,重心一直是通过已证明增加收入、提高生产力和降低风险而带来投资回报的使用场合,“将大数据切实利用起来”。现在, ...
做大数据必须了解的多种处理框架
2016-11-28
做大数据必须了解的多种处理框架 本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是 ...
2016年大数据技术发展趋势概述
2016-10-30
2016年大数据技术发展趋势概述 对大规模数据集进行分析能够帮助我们掌握隐藏模式、客户偏好、未知关联性、市场趋势以及其它极具价值的业务信息。在此基础之上,企业能够实现成本削减、促进决策制定并提供更多有 ...
大数据技能知多少
2016-10-20
大数据技能知多少 说起“大数据”一词,也是真正被吵够了。做个简单的统计也叫大数据,做个表格、画个图形出来,就叫大数据了。言谈间凡是不和“大数据”沾边,就感觉已经落伍了。其实,很多人除了知道简单的统 ...
建立数据场的七大技能
2016-03-29
建立数据场的七大技能 成为数据极客,建立自己的数据场需要哪些技能呢?遇到普通的数据,通过SQL做分析。如果数据量比较大,可以使用Hadoop等大数据框架处理。在深入挖掘上,可用Python或者R语言进行编程。 0 ...

玩转数据分析,必知必会的7款Python工具!

玩转数据分析,必知必会的7款Python工具!
2016-03-22
玩转数据分析,必知必会的7款Python工具 如果你有志于做一个数据专家,你就应该保持一颗好奇心,总是不断探索,学习,问各种问题。在线入门教程和视频教程能帮你走出第一步,但是最好的方式就是通过熟悉各种已 ...

大数据技术人员工具包最全集合

大数据技术人员工具包最全集合
2016-03-15
大数据技术人员工具包最全集合 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、 ...

数据科学家和大数据技术人员工具包汇总

数据科学家和大数据技术人员工具包汇总
2016-03-14
本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址。为数据科学教育和知识分享 ...
1234 1/4

OK