cda

数字化人才认证

首页 > 行业图谱 >

12345678 1/8

 spark SQL是什么,如何理解?

sparkSQL是什么,如何理解?
2020-08-11
一、sparkSQL简介 1.sparkSQL定义 sparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 2.sparkSQL来源 要想了解sparkSQL来源, ...

 spark 入门必读:核心概念介绍及常用RDD操作

spark入门必读:核心概念介绍及常用RDD操作
2020-07-13
作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...

 spark 集群:环境搭建之Scala安装指南

spark集群:环境搭建之Scala安装指南
2020-06-02
今天,我们一起安装、配置spark集群环境,方便后期继续学习研究。spark项目是由scala语言编写的,因此需提前配置Scala环境才能运行Spark程序。 1、Scala版本选择与下载 我们安装spark2.1.2版本与之对应的环 ...

 spark SQL和 spark 有什么区别?

sparkSQL和spark有什么区别?
2020-05-14
Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之,sparkSQL是Spark的前身,是在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。 sparkSQL提供了一 ...

 spark 机器学习-聚类

spark机器学习-聚类
2018-04-05
spark机器学习-聚类 聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中,聚类算法的思想简单的说就是物以类聚的思想,相同性质的点在空间中表现的较为紧密和接近,主要用于数据探索与异常 ...

利用 spark 做文本分类(朴素贝叶斯模型)

利用spark做文本分类(朴素贝叶斯模型)
2017-12-10
利用spark做文本分类(朴素贝叶斯模型) 朴素贝叶斯模型 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基 ...

在线大数据分析培训机构-CDA大数据分析集训营

在线大数据分析培训机构-CDA大数据分析集训营
2022-09-16
在线大数据分析培训机构-课程简介 CDA大数据分析集训营:随着电子信息、物联网、互联网等产业的高速发展,智能手机、平板电脑、可穿戴设备与物联网设备已经渗入到现代生产生活的方方面面,每时每刻都产生着 ...
数据分析师的种类有哪些
2022-09-13
接下来给大家聊下互联网数据分析师的类型以及未来潜在的发展路径。 要聊数据分析师,首先得从数据开始,了解互联网公司的数据流程,可以参照下方的这个流程图,通过流程我们可以识别数据分析师的种类。 数 ...

基于六度分隔理论、PageRank等的人工风控特征提取框架

基于六度分隔理论、PageRank等的人工风控特征提取框架
2022-04-25
作者:小伍哥 来源:小伍哥聊风控 关于图的风控应用,之前的很多文章都是基于算法的,今天分享一篇基于图进行人工特征提取的欺诈检测文章,这样大部分人都能应用上了,其中的特征提取方法和思想,值得我 ...
了解雇主对2020年数据科学家职位的期望
2022-03-30
作者Shareef Shaik,有抱负的数据科学家 最近,我积极地开始找工作,转到数据科学,我没有任何正式的教育,如硕士或博士。AI/机器学习背景。我开始学习它完全是出于我自己的兴趣(不仅仅是因为炒作)。这是 ...
我是如何在下岗2个月后获得4份数据科学工作机会并收入翻倍的
2022-03-14
在这个前所未有的流行病时期,许多人发现他们的职业生涯受到了影响。这其中包括一些我曾经工作过的最有才华的数据科学家。在与一些亲密的朋友分享了我帮助他们在下岗后找到新工作的个人经历后,我认为 ...

作为文科生,我是如何转行数据挖掘工程师的 | 附电信用户实战案例

作为文科生,我是如何转行数据挖掘工程师的 | 附电信用户实战案例
2022-02-23
随着大数据的时代的来临,各个行业都受到了数据分析不同程度的影响和作用。尤其是在电信行业,数据分析已经逐渐成为电信运营商的战略优势之一。 大家好,我是一名CDA持证人,今天想跟大家分享一下,我如何 ...

作为文科生,我是如何转行数据挖掘工程师的 | CDA持证人分享

作为文科生,我是如何转行数据挖掘工程师的 | CDA持证人分享
2022-01-19
大家好,今天跟大家带来一个分享,主题是关于我如何从文科生转行为数据挖掘工程师的。 第一部分讲一下我作为文科生转行数据挖掘的历程; 第二部分是关于目前从事数据挖掘,主要针对商业数据挖 ...

大数据案例应用分享沙龙暨CDA大数据分析就业班期中答辩!

大数据案例应用分享沙龙暨CDA大数据分析就业班期中答辩!
2022-01-20
电子商务网站如何利用大数据进行用户行为分析?如何利用大数据进行美国航班晚点的预测分析?如何有效确定数据挖掘模型的可用性?CDA如何助力数据分析师的成长之路? 这次告诉你答案! CDA大数据就业 ...

Kudu是什么?它的优缺点表现在哪些地方?

Kudu是什么?它的优缺点表现在哪些地方?
2020-07-16
Kudu是由Todd Lipcon@Cloudera带头开发出存储系统,整体应用模式与HBase很相似,也就是能够支持行级别的随机读写,对于批量顺序检索功能也能支持。 一、Kudu的必要性 大家不禁要问了?既然与HBase相似,那为 ...

RDD是什么?它有哪些基本属性?

RDD是什么?它有哪些基本属性?
2020-07-07
RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知 ...

rdd是什么?关于它的前世今生!

rdd是什么?关于它的前世今生!
2020-05-13
rdd,英文全称为:Resilient Distributed Dataset,中文简称“弹性分布式数据集”,spark中最基础的抽象数据结构。 RDD具备分区、不可变、并行操作这三个基本特性,表现形式为不可变的分区元素的集合,并且可以在集 ...

Flink、 spark  Streaming、Kafka的简单介绍!

Flink、spark Streaming、Kafka的简单介绍!
2020-05-13
Spark Streaming、Flink、Kafka三者都是真正的实时处理,它们分别是什么呢?我们今天来了解下。 什么是Spark Streaming? spark streaming是真正的实时处理,是微批处理。 什么是Flink? flin ...

Apache Flink是什么?

Apache Flink是什么?
2020-05-13
Flink其实就是Apache Flink,是一款业内非常火的大数据产品,由Apache软件基金会开发,核心是用Java和Scala编写的分布式流数据流引擎。Apache Flink是个旨在提供‘一站式’ 的分布式开源数据处理框架。 ...

数据分析师的未来:80%的岗位都需要它,10年内最重要职位之一

数据分析师的未来:80%的岗位都需要它,10年内最重要职位之一
2019-12-10
结合自己的成长经验,从一个数据分析师成长为管理过近百人的数据团队的负责人,也许有不少经验和走过的坑可以总结,从而帮助大家。所以决定接下来写一个《数据分析师》成长记录。同时也回答收集到的各个问题 ...
12345678 1/8

OK