CDA数据科学研究院 CDA考试中心 企业服务 关于CDA

cda

全国校区

首页 > 行业图谱 >

分布式文件系统<font color=HDFS概念及工作机制的简单介绍" class="wztu">

分布式文件系统HDFS概念及工作机制的简单介绍
2020-07-17
HDFS 全称为Hadoop Distributed File System,是 hadoop 分布式文件系统,具体来说,是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。最主要的作用是 ...

<font color=HDFS文件系统:Zookeeper的安装宝典" class="wztu">

HDFS文件系统:Zookeeper的安装宝典
2020-06-04
之前介绍了Hbase本地单节点模式的安装,该模式资源占用少适合学习使用。但是在生产环境中为了保证数据的安全,普遍采用集群模式来运用Hbase。在集群模式下Hbase的数据存储在HDFS文件系统而非本地文件系统,还需配 ...

Hadoop:分布式集群<font color=HDFS 、YARN等初次启动!" class="wztu">

Hadoop:分布式集群HDFS 、YARN等初次启动!
2020-06-03
上篇文章中我们通过克隆已有虚拟机并修改相应的参数配置将hadoop分布式集群搭建完成,接下来我们启动Hadoop分布式集群。 1、ssh免密登录 首先打开虚拟机软件VMware然后开启master、slave1、slave2三个虚拟机 ...

Hadoop:伪分布模式启动步骤分解及<font color=HDFS基本操作" class="wztu">

Hadoop:伪分布模式启动步骤分解及HDFS基本操作
2020-06-03
1、格式化HDFS 在运行伪分布式前,需先对NameNode进行格式化,在命令行中输入 hdfs namenode -format          # 格式化hdfs 若出现successfully formatted字 ...

Hadoop之<font color=HDFS与小文件" class="wztu">

Hadoop之HDFS与小文件
2017-05-24
Hadoop之HDFS与小文件 Hadoop有一个名为“HDFS”的分布式文件系统,它的设计目的是提供一个高容错,且能部署在廉价硬件的分布式系统;它的设计参照了Google的GFS(Google分布式文件系统);它能支持高吞吐量, ...

大数据开发之深入<font color=HDFS​_数据分析师" class="wztu">

大数据开发之深入HDFS​_数据分析师
2014-11-18
大数据开发之深入HDFS_数据分析师 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统称为分布式文件 ...

这两款BI分析工具,Tableau和powerBI,你选择哪一个?

这两款BI分析工具,Tableau和powerBI,你选择哪一个?
2020-08-04
大家在商业分析过程中,肯定都用到过Tableau和powerBI这两款分析工具,大家平时喜欢哪一款呢?今天小编就把Tableau和powerBI放在一起对比一下,希望能对大家有所帮助。 一、powerBI 1.powerBI简介 powerBI ...

Kudu是什么?它的优缺点表现在哪些地方?

Kudu是什么?它的优缺点表现在哪些地方?
2020-07-16
Kudu是由Todd Lipcon@Cloudera带头开发出存储系统,整体应用模式与HBase很相似,也就是能够支持行级别的随机读写,对于批量顺序检索功能也能支持。 一、Kudu的必要性 大家不禁要问了?既然与HBase相似,那为 ...

什么是flume?它在大数据处理中起到什么作用?

什么是flume?它在大数据处理中起到什么作用?
2020-07-16
Flume 是 Apache 旗下的一款,开源,可靠性高,扩展性高,管理简单,并且能够支持客户扩展的数据采集系统。 Flume 是使用 JRuby 来构建的,因此依赖于 Java 运行环境。Flume 起初是由 Cloudera 的工程师设计出来, ...
Hbase是什么?与Hive有哪些区别?
2020-07-14
HbaseE是一个具有高可靠性、高性能特点、面向列、可伸缩的分布式存储系统。利用Hbase技术能够在廉价PC Server上搭建起大规模结构化存储集群。Hbase的目标为:存储并处理大型的数据。更进一步说就是仅需通过普通的 ...

Hive基本介绍及安装应用方法

Hive基本介绍及安装应用方法
2020-07-14
Hive是一款基于Hadoop的数据仓库工具,通常被用于数据提取、转化、加载,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive最大的优点是学习成本低, ...

spark入门必读:核心概念介绍及常用RDD操作

spark入门必读:核心概念介绍及常用RDD操作
2020-07-13
作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...
这几种分布式计算框架,你必须知道!
2020-07-10
对于大数据的处理问题,计算机科学界有两大方向:一是集中式计算,另外一种是分布式计算。小编今天给大家整理的是几种主流的分布式计算框架,希望对大家有所帮助。 Hadoop是基础,它的HDFS能够存储文件,Yarn进 ...
数据湖是什么?它与数据仓库一样吗?
2020-07-07
数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是 ...

Hadoop是什么意思,有哪些作用?

Hadoop是什么意思,有哪些作用?
2020-07-07
Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,对那种对几个记录随机读写的在线事务处 ...

RDD是什么?它有哪些基本属性?

RDD是什么?它有哪些基本属性?
2020-07-07
RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知 ...

数据分析师的发展方向有哪几方面?

数据分析师的发展方向有哪几方面?
2020-06-30
数据分析行业大火,很多小伙伴都想转行成为数据分析师,入行容易,但重要的需要确定未来的一个发展方向,不能盲目入行。下面小编给大家分享几种数据分析师的发展方向,大家可以参考一下,首先确定好自己的目标。 ...

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?
2020-06-24
导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个 ...

Hadoop:伪分布模式环境变量的配置

Hadoop:伪分布模式环境变量的配置
2020-06-05
单节点集群模式(a Single Node Cluster)又称伪分布模式,只需一个节点即可运行。这种模式一般只是用来学习或者开发、测试使用。实际使用中还是使用多节点的分布式。 1、环境变量配置 为了方便的执行Hadoop ...

分布式集群参数master节点:DataNode、NameNode等相关配置

分布式集群参数master节点:DataNode、NameNode等相关配置
2020-06-03
之前的文章中我们已经将master节点的网络IP、hostname文件、hosts文件配置完成,接下来还有hadoop相关配置文件需要修改。今天我们来讲master节点hadoop的配置。 1、hdfs-site.xml 在hadoop的配置文件中与HDF ...

OK