
大数据 分析工具大汇总_数据分析师考试
大数据分析Storm:Apache Storm是一种开源的分布式实时计算系统。Storm加速了流数据处理的过程,为Hadoop批处理提供实时数据处理。
Spark:Spark是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于HadoopMapReduce更快。Spark适合机器学习以及交互式数据查询工作,包含Scala、Python和JavaAPI,这更有利于开发人员使用。
Twitter流处理工具Summingbird:与Storm和Scalding相似,开发者可以使用非常接近原生的Scala或者Java在Summingbird上执行MapReduce作业。
AWSKinesis:AmazonKinesis是一种实时数据流处理管理服务。它可以收集和处理来自不同数据源的数据,允许开发者编写可处理实时信息的应用程序,来源网站click-streams、营销和财务信息、制造工具和社交媒体,和操作日志和计量数据。
DataTorrent:DataTorrent是实时流媒体平台,可使企业执行数据处理或转换结构化与非结构化数据、实时数据流到数据中心。该产品主要利用Hadoop2.0和YARN技术。
SpringXD:通过任意数量的处理器,SpringXD架构支持事件驱动的数据流摄入。流是由Spring集成适配器支持。
SQLStream:SQLStream为流媒体分析、可视化和机器数据持续集成提供了一个分布式流处理平台。大数据(Hadoop)即服务ElasticMapReduce:AmazonElasticMapReduce(亚马逊EMR)是一个web服务,提供大量数据处理。通过一个大小可调整的AmazonEC2实例集群,EMR使用Hadoop来分配并处理数据。
Qubole:Qubote的大数据服务提供Hadoop集群内置数据连接器和大数据项目图形编辑器。
Mortar:Mortar是一个通用的大规模科学数据平台。它建立在AmazonWeb服务云,使用弹性MapReduce(EMR)启动Hadoop集群并处理大型数据集。Mortar可运行ApachePig,这是一个构建在Hadoop上的数据流语言。此外,Mortar还可运行Hadoop]、Pig、Java、Python和Luigi等,让用户专注于研究科学数据,无需担心IT基础设施。
Rackspace:RackspaceHadoop集群可运行HadoopRackspace托管专用服务器,自旋向上Hadoop公共云,或配置自己的私有云。
Joyent:JoyentHadoop是一个基于ApacheHadoop项目大数据托管环境云的解决方案。提供数据存储服务获取、分析和访问任何数据格式、数据管理服务以处理、监控和运行Hadoop及数据平台服务安全、存档和规模一致的可用性。
Google:Hadoop在谷歌的云平台上使用开源的ApacheHadoop谷歌计算引擎的虚拟机。SQL-in-Hadoop解决方案ApacheHive:ApacheHive优化了大型数据集分布式存储的查询和管理过程。Mapreduce开发者也可以插入自定义映射器和还原剂。
Impala:Cloudera的Impala是一个开源的大规模并行处理(MPP)SQL查询引擎,运行在ApacheHadoop。用户可直接查询存储在HDFS和ApacheHBase的数据,无需进行数据迁移或转换。
Shark:Shark是一种与ApacheHive兼容的Spark数据仓库系统。Shark支持Hive查询语言、metastore、序列化格式和用户自定义函数。
SparkSQL:SparkSQL的前身是shark。在hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,是当时唯一运行在hadoop上的SQL-on-Hadoop工具。但是,MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的SQL-on-Hadoop工具开始产生。
ApacheDrill:ApacheDrill目前是Apache的一个孵化项目。提供了不同数据源特别的查询,包括嵌套数据。受GoogleDremel的启发,Drill是专为大型数据集提供可扩展性和查询的能力。该项目是由MapR写成。
ApacheTajo:ApacheTajo是ApacheHadoop大数据相关的分布式数据仓库系统。Tajo专为低延迟、可扩展的即时查询、在线聚合及ETL(提取-转换-装载过程)在大型数据集存储在HDFS(Hadoop分布式文件系统)和其他数据源。
Presto:Presto框架转眼间从Facebook框架是一个Presto是Facebook开发的开源分布式SQL查询引擎,支持对任意级大小的数据源进行快速地交互分析。
Phoenix:Phoenix是一款开源的ApacheHBaseSQL查询引擎,由JDBC驱动程序,可使用SQL查询和管理HBase表。此项目已提交成为Apache孵化器项目。
Pivotal’sHAWQ:作为Pivotal大数据集的一部分,HAWQ是一个MPPSQL处理引擎。HAWQ实际上就是一个大规模并行处理工程或MPP,数据库运行在Hadoop中,位于HDFS的顶部。作为一个单一的系统,它将一整套聚合基础设施嵌入系统,那套聚合基础设施可以运行和提供Hadoop和HDFS必须提供的所有功能以及你能从MPP数据库中获得的规模、性能和可查询功能。大数据Lambda架构Lambda系统架构(LA)提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时的数据视图。Lambda架构框架主要包括:
Twitter’sSummingbird:Twitter的开源Summingbird大数据分析工具,通过整合批处理与流处理来减少它们之间的转换开销。区别于以往的更快、更准确节奏,Summingbird更注重于流处理与批处理的无缝整合,以及编程语言的原生化。
Summingbird是一个大规模数据处理系统,支持开发者以批处理模式(基于Hadoop/MapReduce)或流处理模式(基于Storm)或混合模式(即组合前两种模式)以统一的方式执行代码。
Lambdoop:Lambdoop是一个Java框架,用于以与Lambda架构一致的方式开发大数据应用。Lambda架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28