京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据存储服务选择指南 何谓大数据
磁盘存储就像是衣橱,永远不够用,在大数据时代,这一点尤为突出。“大数据”意味着需要比传统存储平台处理更多的数据。那么这对于CIO意味着什么呢?意味着他们将需要做出更多的努力,而可供参考的信息却很少。
不过,在为大数据选择存储服务时也并不是完全无迹可寻。
何谓大数据
首先,我们需要清楚大数据与其他类型数据的区别以及与之相关的技术(主要是分析应用程序)。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)。此外,大部分这些数据缺乏索引或者其他组织结构,可能由很多不同文件类型组成。
由于这些数据缺乏一致性,使标准处理和存储技术无计可施,而且运营开销以及庞大的数据量使我们难以使用传统的服务器和SAN方法来有效地进行处理。换句话说,大数据需要不同的处理方法:自己的平台,这也是Hadoop可以派上用场的地方。
Hadoop是一个开源分布式计算平台,它提供了一种建立平台的方法,这个平台由标准化硬件(服务器和内部服务器存储)组成,并形成集群能够并行处理大数据请求。在存储方面来看,这个开源项目的关键组成部分是Hadoop分布式文件系统(HDFS),该系统具有跨集群中多个成员存储非常大文件的能力。HDFS通过创建多个数据块副本,然后将其分布在整个集群内的计算机节点,这提供了方便可靠极其快速的计算能力。
从目前来看,为大数据建立足够大的存储平台最简单的方法就是购买一套服务器,并为每台服务器配备数TB级的驱动器,然后让Hadoop来完成余下的工作。对于一些规模较小的企业而言,可能只要这么简单。然而,一旦考虑处理性能、算法复杂性和数据挖掘,这种方法可能不一定能够保证成功。
你的存储架构
这一切都归结到所涉及的存储结构和网络性能。对于经常分析大数据的企业而言,可能需要一个单独的基础设施,因为随着集群中计算节点的数量的增长,带宽开销也会增长。通常情况下,使用HDFS的多模计算集群在处理大数据时将会产生大量流量。这是因为Hadoop在集群的成员服务器间传输数据(以及计算资源)。
在大多数情况下,基于服务器的本地存储并没有高效率的优点,这也是为什么很多企业转向使用高速光纤结构的SAN来最大限度地提高吞吐量。然而,SAN方法本身并不一定适合大数据部署。尤其是那些使用Hadoop的大数据部署,因为SAN承担集中硬盘上数据的责任,这反过来意味着每个计算服务器将需要访问相同的SAN来恢复正态分布的数据。
然而,当比较本地服务器存储和基于SAN的存储时,本地存储在两个方面占据优势:成本和整体性能。简而言之,没有在每个计算成员放置RAID的原始磁盘在处理HDFS请求时将胜过SAN,然而,基于服务器的磁盘存在缺点,主要是在可扩展性方面。
问题是当服务器依赖于本地存储时,你如何在必要的时候增加更多的容量。通常,有两种方式来处理这种困境。第一种方法是增加具有更多本地存储的额外的服务器。第二种方法是增加集群服务器的容量。这两种方法都需要购买和配置硬件,这将导致停机时间,可能还需要重新设计架构。然而,无论使用哪种方法都要比向SAN增加容量要便宜,可以说,这是一个显著的成本优势。
然而,当涉及到Hadoop时,还有其他存储选择。例如,一些领先的存储厂商都在建立专门针对Hadoop和大数据分析的存储设备。这些供应商包括EMC,目前提供Hadoop解决方案,例如GreenplumHDDataComputingAppliance。甲骨文正在考虑进一步深化Exadata系列设备,提供计算能力以及高速存储。
最后一个存储选择是云形式的存储,Cloudera、微软、Amazon和很多其他供应商都在提供基于云的大数据解决方案,这些解决方案能够提供处理能力、存储和支持。
在选择大数据存储解决方案时需要考虑究竟需要多少空间,分析频率如何以及需要处理什么类型的数据。这些因素,以及安全、预算和处理时间都是选择大数据存储解决方案时需要考虑的因素。
可能站在保险的角度来看,一个试点项目可能是一个不错的开始,商品硬件也是大数据试点项目的低成本投资选择。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21