PGC123

spark是基于什么技术的大数据框架

有道题是这样:spark是基于什么技术的大数据框架?答:spark与hadoop2中的mapreduce计算框架的一个不同之处是spark基于内存来存运算过程的中间结果,这是spark框架运算速度快于mapreduce2的一个原因。

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

hdfs 的SecondaryNameNode在哪里配置的?

hdfs 的SecondaryNameNode在哪里配置的? 如果想在其他节点启动该如何启动?答:SecondaryNameNode是在hdfs-site.xml中配置的dfs.namenode.secondary.http-address参数值     dfs.namenode.secondary.http-address

0.0000 0 3
  • 关注作者
  • 收藏
PGC123

hadoop集群是在什么地方制定的hdfs地址

hadoop集群是在什么地方制定的hdfs服务地址?答:hadoop集群的hdfs服务地址也是namenode的地址,这个是hadoop的核心功能。这各参数是在core-site.xml中配置的 fs.defaultFS hdfs://localhost:9000

99.4764 1 1
  • 关注作者
  • 收藏
PGC123

CentOS下 ssh 免密登录配置失败问题

ssh 免密登录是配置大数据分布式集群的基本操作,其过程简单来说就是将master 节点的公钥分发到各个节点的授信文件authorized_keys中。在ubuntu中完成上面的配置基本上就可以实现免密登录了,但是在CentOS中却还不行,ssh 登录远程节点还要输入密码,这是为啥呢?原因是CentOS需要更多的权限,具体来说就是 .ssh目录需要有700的权限 authorized_k

0.0000 0 5
  • 关注作者
  • 收藏
PGC123

hadoop 配置的优先级

hadoop的配置参数调用是有优先级的,有时候我们配置了文件但是却不生效这是因为其他地方的配置已经覆盖了当前配置。hadoop的配置参数调用优先级顺序:在JobConf中指定的客户端机器上的__-site.xml配置slave节点上的__-site.xml配置__-default.xml中的配置如果某个属性不想被覆盖,可以将其设置成final

0.0000 0 1
  • 关注作者
  • 收藏
PGC123

hadoop 常见配置文件

配置文件有两种类型:一种是__-default.xml(只读,默认的配置)一种是#x662F;__-site.xml(替换default中的配置)常用的文件有:core-site.xml 配置公共属性hdfs-site.xml 配置HDFSyarn-site.xml 配置YARNmapred-site.xml 配置MapReduce

0.0000 0 7
  • 关注作者
  • 收藏
PGC123

Hadoop的MapReduce框架原理

在Hadoop上面进行并行计算需要按照MapReduce计算框架开发代码。MapReduce计算过程主要分为map 、shuffle、reduce三个阶段,其中用户要实现 的只有map和reduce两个阶段,其他阶段框架自动完成。Map阶段:当向MapReduce 框架提交一个计算作业时,它首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去并行执行,每一个Map 任务处理输入

0.0000 0 1
  • 关注作者
  • 收藏
PGC123

yarn client模式启动pyspark报错

在yarn client 模式下启动pyspark 提示`Yarn application has already exited with state FINISHED!` 错误 可能是因为yarn-site.xml中的配置项yarn.nodemanager.vmem-pmem-ratio值偏小,它的默认值为2.1,可以尝试改大一点再试。

0.2830 1 0
  • 关注作者
  • 收藏
PGC123

hadoop同时存在新旧两参数怎么处理?

在配置hadoop参数时同样功能有的文档说这么配置有的文档说那样配置,这个怎么区分?MapReduce 在大版本上,经历了 MR1 和 MR on YARN;而小版本则迭代了不计其数次。版本的演进过程中,开发人员发现很多参数的命名不够标准,就对参数名称做了修改;但是为了保证程序的前后兼容,仍然保留了旧参数名称的功能。这样等于是实现同一个功能的参数,就有了新旧两种不同的名称。比如 mapredu

0.0000 0 2
  • 关注作者
  • 收藏
PGC123

hadoop 各个配置文件作用?

hadoop常用的几个配置文件有:Hadoop-env.sh 、core-site.xml 、YARN-site.xml、mapred-site.xml、hdfs-site.xml。1、hadoop-env.sh是hadoop运行用到的环境变量配置文件2、core-site.xml hadoop core 的配置项,例如HDFS、mapreduce和yarn常用的I/O配置3、YAR

0.0000 0 2
  • 关注作者
  • 收藏
PGC123

hadoop本地模式安装配置

1、解压Hadoop压缩文件到用户主目录下tar -zxvf ./Downloads/hadoop-2.7.5.tar.gz #我的安装文件位置./Downloads/hadoop-2.7.5.tar.gz,如果位置不一样需要修改2、将解压后的文件名变为hd275 (不是必须,只是为了让文件目录名字短一些)mv hadoop-2.7.5/ ./hd2753、配置Hadoop环境变量

0.0000 0 1
  • 关注作者
  • 收藏
PGC123

如何下载Hadoop?

如何下载Hadoop?Hadoop官网一般都是有最新版本下载链接的,国内如果想下载快一些还是建议使用阿里或者清华的镜像服务器下载吧。清华Hadoop镜像服务器地址:http://mirrors.hust.edu.cn/apache/hadoop/common/这里面有多个版本文件,可根据需要下载源码或者编译好的二进制安装包

0.0000 0 1
  • 关注作者
  • 收藏
PGC123

如何设置本地SSH无密码登录?

ssh 无密登录是配置Hadoop集群的基础工作,如果没有这步集群间无法通讯配置本地SSH免密登录:1、首先在本地生成公私钥ssh-keygen -t rsa #生成秘钥对2、将公钥发送到授权文件中cat ./id_rsa.pub >> ~/.ssh/authorized_keys3、测试是否可以免密登录ssh localhost如果不需要输入密码即可进入系统说明配置成功。

46.4498 1 1
  • 关注作者
  • 收藏
291294878

Hadoop框架中怎么优化

Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS上,能与Hadoop很好的结合。它的RDD是一个很大的特点。Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻松地集成结构化、

0.0000 0 4
  • 关注作者
  • 收藏
诗人都在海底

别跟风了!你的公司根本不需要数据科学家

数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决当下数据科学家的痛点,这样数据科学家才能发挥作用解决公司的痛点。 大约在四年前,数据科学家成为了每个公司的必须雇的人。技术人员争先恐后地甩掉在大学用的统计课本,花大量的时间重新学习Python Pandas和R,然后恶补最时髦的

0.0000 0 2
  • 关注作者
  • 收藏
291294878

HDFS读写数据的过程有哪些?

读:1、跟namenode通信查询元数据,找到文件块所在的datanode服务器2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)4、客户端以packet为单位接收,现在本地缓存,然后写入目标文件 写:1、根namenode通信请求上传文件,namenode检

0.0000 0 0
  • 关注作者
  • 收藏
291294878

大数据解决方案的关键步骤是什么?

提取数据,存储数据(即数据建模)和处理数据(即数据加工,数据转换和查询数据)。  提取数据 从各种来源提取数据,例如: RDBM(Relational Database Management Systems)关系数据库管理系统,如Oracle,MySQL等。ERPs(Enterprise Resource Planning)企业资源规划(即ERP)系统,如SAP。CRM(Customer

0.0000 0 2
  • 关注作者
  • 收藏
291294878

基于Hadoop的数据中心的好处是什么?

随着数据量和复杂性的增加,提高了整体SLA(即服务水平协议)。例如,“Shared Nothing”架构,并行处理,内存密集型处理框架,如Spark和Impala,以及YARN容量调度程序中的资源抢占。  缩放数据仓库可能会很昂贵。添加额外的高端硬件容量以及获取数据仓库工具的许可证可能会显著增加成本。基于Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜,而且还可以通过将数据转换卸载

0.0000 0 1
  • 关注作者
  • 收藏
291294878

什么是Hadoop?

Hadoop是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容:  HDFS(Hadoop Distributed File System,Hadoop分布式文件系统):HDFS允许你以一种分布式和冗余的方式存储大量数据。例如,1 GB(即1024 MB)文本文件可以拆分为16 * 128MB文件,并存储在

0.0000 0 0
  • 关注作者
  • 收藏
PGC123

python写的脚本语言可以直接在hadoop上运行吗

python写的脚本语言可以直接在hadoop上运行吗?我的意思是Python 写的脚本语言不经任何处理是否可以在Hadoop 上运行,还是说,需要将脚本进行mapreduce转化后才能运行,如果是转化,怎么转化,很难吗? 首先 由于python是应用于单机环境的,因此python脚本如果没有按照Hadoop的模式来编写、部署是不能直接在hadoop上运行的。 MapReduce是hadoo

17.3650 2 4
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据