大数据解决方案的关键步骤是什么？

291294878

2018-10-22 阅读量: 1515

大数据解决方案的关键步骤是什么？

提取数据，存储数据（即数据建模）和处理数据（即数据加工，数据转换和查询数据）。

　　提取数据

　从各种来源提取数据，例如：

RDBM（Relational Database Management Systems）关系数据库管理系统，如Oracle，MySQL等。

ERPs（Enterprise Resource Planning）企业资源规划（即ERP）系统，如SAP。

CRM（Customer Relationships Management）客户关系管理系统，如Siebel，Salesforce等

社交媒体Feed和日志文件。

平面文件，文档和图像。

　　并将其存储在基于“Hadoop分布式文件系统”（简称HDFS）的数据中心上。可以通过批处理作业（例如每15分钟运行一次，每晚一次，等），近实时（即100毫秒至2分钟）流式传输和实时流式传输（即100毫秒以下）去采集数据。

　　Hadoop中使用的一个常用术语是“Schema-On-Read”。这意味着未处理（也称为原始）的数据可以被加载到HDFS，其具有基于处理应用的需求在处理之时应用的结构。这与“Schema-On-Write”不同，后者用于需要在加载数据之前在RDBM中定义模式。

　　存储数据

数据可以存储在HDFS或NoSQL数据库，如HBase。HDFS针对顺序访问和“一次写入和多次读取”的使用模式进行了优化。HDFS具有很高的读写速率，因为它可以将I / O并行到多个驱动器。HBase在HDFS之上，并以柱状方式将数据存储为键/值对。列作为列家族在一起。HBase适合随机读/写访问。在Hadoop中存储数据之前，你需要考虑以下几点：

数据存储格式：有许多可以应用的文件格式（例如CSV，JSON，序列，AVRO，Parquet等）和数据压缩算法（例如snappy，LZO，gzip，bzip2等）。每个都有特殊的优势。像LZO和bzip2的压缩算法是可拆分的。

数据建模：尽管Hadoop的无模式性质，模式设计依然是一个重要的考虑方面。这包括存储在HBase，Hive和Impala中的对象的目录结构和模式。Hadoop通常用作整个组织的数据中心，并且数据旨在共享。因此，结构化和有组织的数据存储很重要。

元数据管理：与存储数据相关的元数据。

多用户：更智能的数据中心托管多个用户、组和应用程序。这往往导致与统治、标准化和管理相关的挑战。

　　处理数据

　　Hadoop的处理框架使用HDFS。它使用“Shared Nothing”架构，在分布式系统中，每个节点完全独立于系统中的其他节点。没有共享资源，如CPU，内存以及会成为瓶颈的磁盘存储。Hadoop的处理框架（如Spark，Pig，Hive，Impala等）处理数据的不同子集，并且不需要管理对共享数据的访问。 “Shared Nothing”架构是非常可扩展的，因为更多的节点可以被添加而没有更进一步的争用和容错，因为每个节点是独立的，并且没有单点故障，系统可以从单个节点的故障快速恢复。

0.0000

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子