
重视大数据引领数据管理变革
供应商在每发布一款产品时都往往会有这样一种偏好,将其产品和最新的一些热炒的话题结合起来。而这次,厂商们又开始在每项产品中增加“大数据”的概念。如果你是一位存储管理员的话,你或许会在管理你自己环境中的大数据时遇到困惑。供应商口中的大数据存储和大数据分析非常相似,因此你很容易理解成这两者是相关的--大数据存储是用于大数据分析的。然而,到目前为止这是两种截然不同的计算机技术领域:一项致力于研发可以扩展至PB甚至EB级别的数据存储平台(大数据存储);另一项则关注在最短时间内处理大量不同类型的数据集(大数据分析)。
不过,在这些快速变化的趋势之中有至少两个结点,是存储管理员需要越为重视的。其一,大数据分析流程和传统的数据仓库的方式完全不同,其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着基础平台(分布式计算或其它架构)变得业务关键化,用户群较以往更加地依赖这一平台,这也使得其成为企业安全性、数据保护和数据管理策略的关键课题。
其二,通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储(NAS)和存储区域网络(SAN)--其通常是内置的直连存储(NAS)以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂,因为你无法像以前那样对这些数据部署安全、保护和保存流程。然而,执行这些流程策略的必要性被集成在管理分布式计算集群之中,并且改变了计算和存储层交互的方式。
在我们一系列管理企业的大数据专题的第一篇文稿中,我们将关注在大数据分析和传统的数据仓库的不同之处,并且引入分布式计算集群作为大数据分析的基础。下一步,我们将着眼于分布式计算中的存储,并且进一步观察分布式计算如何创建并使用存储层。然后,我们将检验一个三段式的存储模型,其中在分布式计算的存储层中包含了NAS和SAN.最后,我们通过使用一些同样的判断因素--这些因素你作为存储管理员在评估存储阵列中同样会用到--来对分布式计算作为一个存储设备进行评估。
区别大数据分析和传统的数据仓库的不同
大数据分析中包含了各种快速成长中的技术。因此,简单用某一种技术尝试对其定义,比如分布式计算,会比较困难。不过,这些定义大数据分析的通用性技术可以用如下特征阐述:[page]
对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据,不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键,其中包括移动设备,RFID,网络和不断增长的自动化感知技术。
传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而,据估计超过80%的企业数据是非结构化的,即无法关系型数据库管理系统(RDBMS),比如DB2和Oracle完成的数据。一般而言,处于此次讨论的目的,非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息,包括:
邮件和其它形式的电子通讯记录
网站上的资料,包括点击量和社交媒体相关的内容
数字视频和音频
设备产生的数据(RFID,GPS,传感器产生的数据,日志文件等)以及物联网
在大数据分析的情况下,查看远多于RDBMS的数据类型十分必要--这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍,从业务角度看这些数据也变得更为重要。
为什么需要更新的技术?
从大数据分析角度看,业务主管的挑战在于从各种数据源获取信息,并执行分析流程以打开信息的价值。传统数据仓库技术并不是设计在很短的时间内(5秒钟甚至更少)用于处理海量的非结构化数据,因此市场上产生了管理大数据的需求。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28