CDA数据科学研究院 CDA考试中心 企业服务 关于CDA

cda

全国校区

首页 > 行业图谱 >

1234567 1/7

<font color=sparkSQL是什么,如何理解?" class="wztu">

sparkSQL是什么,如何理解?
2020-08-11
一、sparkSQL简介 1.sparkSQL定义 sparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 2.sparkSQL来源 要想了解sparkSQL来源, ...

<font color=spark入门必读:核心概念介绍及常用RDD操作" class="wztu">

spark入门必读:核心概念介绍及常用RDD操作
2020-07-13
作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...

<font color=spark集群:环境搭建之Scala安装指南" class="wztu">

spark集群:环境搭建之Scala安装指南
2020-06-02
今天,我们一起安装、配置spark集群环境,方便后期继续学习研究。spark项目是由scala语言编写的,因此需提前配置Scala环境才能运行Spark程序。 1、Scala版本选择与下载 我们安装spark2.1.2版本与之对应的环 ...

<font color=sparkSQL和spark有什么区别?" class="wztu">

sparkSQL和spark有什么区别?
2020-05-14
Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之,sparkSQL是Spark的前身,是在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。 sparkSQL提供了一 ...

<font color=spark机器学习-聚类" class="wztu">

spark机器学习-聚类
2018-04-05
spark机器学习-聚类 聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中,聚类算法的思想简单的说就是物以类聚的思想,相同性质的点在空间中表现的较为紧密和接近,主要用于数据探索与异常 ...

利用<font color=spark做文本分类(朴素贝叶斯模型)" class="wztu">

利用spark做文本分类(朴素贝叶斯模型)
2017-12-10
利用spark做文本分类(朴素贝叶斯模型) 朴素贝叶斯模型 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基 ...

Kudu是什么?它的优缺点表现在哪些地方?

Kudu是什么?它的优缺点表现在哪些地方?
2020-07-16
Kudu是由Todd Lipcon@Cloudera带头开发出存储系统,整体应用模式与HBase很相似,也就是能够支持行级别的随机读写,对于批量顺序检索功能也能支持。 一、Kudu的必要性 大家不禁要问了?既然与HBase相似,那为 ...

RDD是什么?它有哪些基本属性?

RDD是什么?它有哪些基本属性?
2020-07-07
RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知 ...

rdd是什么?关于它的前世今生!

rdd是什么?关于它的前世今生!
2020-05-13
rdd,英文全称为:Resilient Distributed Dataset,中文简称“弹性分布式数据集”,spark中最基础的抽象数据结构。 RDD具备分区、不可变、并行操作这三个基本特性,表现形式为不可变的分区元素的集合,并且可以在集 ...

Flink、<font color=spark Streaming、Kafka的简单介绍!" class="wztu">

Flink、spark Streaming、Kafka的简单介绍!
2020-05-13
Spark Streaming、Flink、Kafka三者都是真正的实时处理,它们分别是什么呢?我们今天来了解下。 什么是Spark Streaming? spark streaming是真正的实时处理,是微批处理。 什么是Flink? flin ...

Apache Flink是什么?

Apache Flink是什么?
2020-05-13
Flink其实就是Apache Flink,是一款业内非常火的大数据产品,由Apache软件基金会开发,核心是用Java和Scala编写的分布式流数据流引擎。Apache Flink是个旨在提供‘一站式’ 的分布式开源数据处理框架。 ...

数据分析师的未来:80%的岗位都需要它,10年内最重要职位之一

数据分析师的未来:80%的岗位都需要它,10年内最重要职位之一
2019-12-10
结合自己的成长经验,从一个数据分析师成长为管理过近百人的数据团队的负责人,也许有不少经验和走过的坑可以总结,从而帮助大家。所以决定接下来写一个《数据分析师》成长记录。同时也回答收集到的各个问题 ...

我的数据科学成长之路:从菜鸟到最年轻Kaggle X2大师

我的数据科学成长之路:从菜鸟到最年轻Kaggle X2大师
2019-08-14
作者 | Mohammad Shahebaz 来源 | 图灵TOPIA 他表示,介绍进入数据科学领域所需技能的文章有很多,分享成功经验和意见的访谈也不少。但很少能找到文章具体介绍他们是如何开始自己的数据科学之 ...

在机器学习中如何选择一个合适的算法?

在机器学习中如何选择一个合适的算法?
2019-05-08
在我们使用机器学习处理问题的时候,我们需要选择算法,选择一个好的算法能够帮助我们提高工作效率。但是很多朋友对选择算法不是很理解,在这篇文章中我们就给大家介绍一下关于机器学习选择算法的相关建议,希 ...

机器学习处理问题如何选择一个合适的算法?

机器学习处理问题如何选择一个合适的算法?
2019-03-06
我们在进行数据分析或者数据挖掘工作的时候,总会遇到很多的问题,而解决这些问题的方式有很多。如果需要我们用机器学习来处理,那么就需要我们根据算法去选择一个合适的算法。但问题是,用机器学习处理 ...

大数据学习阶段都有哪些(五)

大数据学习阶段都有哪些(五)
2019-02-25
在前面的文章中我们给大家介绍了很多的内容,包括大数据学习的七个阶段,除了这七个阶段之外,还有一个最重要的阶段,也就是第八个阶段。第八个阶段就是SPARK数据分析。“千里之行,最后一行”——我们在 ...

大数据分析技术与应用

大数据分析技术与应用
2019-01-02
CDA数据分析研究院原创作品   一、大数据概念 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现 ...

想入门数据科学领域?明确方向更重要

想入门数据科学领域?明确方向更重要
2018-12-18
作者 | Jeremie Harris 翻译 | Mika CDA 数据分析师原创作品,转载需授权   我在一家数据科学培训公司工作。对于学员,我常常给出的建议并不是推荐库或者工具,而是让他们首先明确自己想成 ...

大数据分析与数据分析的根本区别在哪里?

大数据分析与数据分析的根本区别在哪里?
2018-11-12
作者:CDA数据分析师 大数据分析与数据分析这几年一直都是个高频词,很多人都开始纷纷转行到这个领域,也有不少人开始跃跃欲试,想找准时机进到大数据或数据分析领域。如今大数据分析和数据分析火爆,要 ...

大数据时代, 大数据创业的未来到底如何?

大数据时代, 大数据创业的未来到底如何?
2018-09-10
数据分析师、数据挖掘师、数据科学家等大数据时代诞生的岗位让人蠢蠢欲动,越来越多人都开始踏进大数据分析行列。面对大数据时代大数据的火爆,大数据创业这个词汇也开始涌现,很多人学习了大数据分析培训,觉 ...
1234567 1/7

OK