大数据技术未来发展前景及趋势分析_数据分析师培训-CDA数据分析师官网

热线电话：13121318867

大数据技术未来发展前景及趋势分析_数据分析师培训

2015-04-07

大数据技术未来发展前景及趋势分析_数据分析师培训

在过去几年里，大数据技术已得到广泛关注。在这一领域，有几个趋势和创新正悄然发生。本文整理了您目前正在使用或未来将要使用的大数据的新趋势和变化。

　　流大数据分析

　　· Storm: Apache Storm是一种开源的分布式实时计算系统。Storm加速了流数据处理的过程，为Hadoop批处理提供实时数据处理。

　　· Spark: Spark是一个兼容Hadoop数据源的内存数据处理平台，运行速度相比于Hadoop MapReduce更快。Spark适合机器学习以及交互式数据查询工作，包含Scala、Python和Java API，这更有利于开发人员使用。

　　· Twitter流处理工具Summingbird: 与Storm和Scalding相似，开发者可以使用非常接近原生的Scala或者Java 在Summingbird上执行MapReduce作业。

　　· AWS Kinesis: Amazon Kinesis是一种实时数据流处理管理服务。它可以收集和处理来自不同数据源的数据，允许开发者编写可处理实时信息的应用程序，来源网站click-streams、营销和财务信息、制造工具和社交媒体，和操作日志和计量数据。

　　· Data Torrent：Data Torrent是实时流媒体平台，可使企业执行数据处理或转换结构化与非结构化数据、实时数据流到数据中心。该产品主要利用Hadoop 2.0和YARN技术。

　　· Spring XD：通过任意数量的处理器，Spring XD架构支持事件驱动的数据流摄入。流是由Spring集成适配器支持。

　　· SQL Stream: SQL Stream为流媒体分析、可视化和机器数据持续集成提供了一个分布式流处理平台。

　　大数据(Hadoop)即服务

　　· Elastic MapReduce: Amazon Elastic MapReduce(亚马逊EMR)是一个web服务，提供大量数据处理。通过一个大小可调整的Amazon EC2实例集群，EMR使用Hadoop来分配并处理数据。

　　· Qubole: Qubote的大数据服务提供Hadoop集群内置数据连接器和大数据项目图形编辑器。

　　· Mortar：Mortar 是一个通用的大规模科学数据平台。它建立在Amazon Web服务云，使用弹性MapReduce(EMR)启动Hadoop集群并处理大型数据集。Mortar可运行Apache Pig，这是一个构建在Hadoop上的数据流语言。此外，Mortar还可运行Hadoop]、Pig、Java、Python和Luigi等，让用户专注于研究科学数据，无需担心IT基础设施。

　　· Rackspace: Rackspace Hadoop集群可运行Hadoop Rackspace托管专用服务器，自旋向上Hadoop公共云，或配置自己的私有云。

　　· Joyent : Joyent Hadoop是一个基于Apache Hadoop项目大数据托管环境云的解决方案。提供数据存储服务获取、分析和访问任何数据格式、数据管理服务以处理、监控和运行Hadoop及数据平台服务安全、存档和规模一致的可用性。

　　· Google: Hadoop在谷歌的云平台上使用开源的Apache Hadoop谷歌计算引擎的虚拟机。

　　SQL-in-Hadoop解决方案

　　· Apache Hive: Apache Hive优化了大型数据集分布式存储的查询和管理过程。Mapreduce开发者也可以插入自定义映射器和还原剂。

　　· Impala: Cloudera的Impala是一个开源的大规模并行处理(MPP)SQL查询引擎，运行在Apache Hadoop。用户可直接查询存储在HDFS和Apache HBase的数据，无需进行数据迁移或转换。

　　· Shark: Shark是一种与Apache Hive兼容的Spark数据仓库系统。Shark支持Hive查询语言、metastore、序列化格式和用户自定义函数。

　　· Spark SQL: Spark SQL的前身是shark。在hadoop发展过程中，为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，hive应运而生，是当时唯一运行在hadoop上的SQL-on-Hadoop工具。但是，MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，大量的SQL-on-Hadoop工具开始产生。

　　· Apache Drill: Apache Drill目前是Apache的一个孵化项目。提供了不同数据源特别的查询，包括嵌套数据。受Google Dremel的启发，Drill是专为大型数据集提供可扩展性和查询的能力。该项目是由MapR写成。

　　· Apache Tajo: Apache Tajo是Apache Hadoop大数据相关的分布式数据仓库系统。Tajo专为低延迟、可扩展的即时查询、在线聚合及ETL(提取-转换-装载过程)在大型数据集存储在HDFS(Hadoop分布式文件系统)和其他数据源。

　　· Presto: Presto框架转眼间从Facebook框架是一个Presto是Facebook开发的开源分布式SQL查询引擎，支持对任意级大小的数据源进行快速地交互分析。

　　· Phoenix: Phoenix是一款开源的Apache HBase SQL查询引擎，由JDBC驱动程序，可使用SQL查询和管理HBase表。此项目已提交成为Apache孵化器项目。

　　· Pivotal's HAWQ: 作为Pivotal大数据集的一部分，HAWQ是一个MPP SQL处理引擎。HAWQ实际上就是一个大规模并行处理工程或MPP，数据库运行在Hadoop中，位于HDFS的顶部。作为一个单一的系统，它将一整套聚合基础设施嵌入系统，那套聚合基础设施可以运行和提供Hadoop和HDFS必须提供的所有功能以及你能从MPP数据库中获得的规模、性能和可查询功能。

　　大数据Lambda架构

　　Lambda系统架构(LA)提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台，以提供一个实时的数据视图。Lambda架构框架主要包括：

　　· Twitter's Summingbird：Twitter的开源Summingbird大数据分析工具，通过整合批处理与流处理来减少它们之间的转换开销。区别于以往的更快、更准确节奏，Summingbird更注重于流处理与批处理的无缝整合，以及编程语言的原生化。Summingbird是一个大规模数据处理系统，支持开发者以批处理模式(基于Hadoop/MapReduce)或流处理模式(基于Storm)或混合模式(即组合前两种模式)以统一的方式执行代码。

　　· Lambdoop: Lambdoop是一个Java框架，用于以与Lambda架构一致的方式开发大数据应用。Lambda架构的特色是有一个不可修改、只能追加数据的主数据库，并组合了批处理、服务和加速等不同的层。

　　· Value Proposition: 这些数据库的价值在于其可能带来的商机。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

Hadoop SQL 大数据 HDFS Hive 数据分析数据仓库 Mapreduce

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

大数据技术未来发展前景及趋势分析_数据分析师培训

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

大数据技术 未来发展前景及趋势分析_数据分析师培训

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

大数据技术未来发展前景及趋势分析_数据分析师培训