京公网安备 11010802034615号
经营许可证编号:京B2-20210330
实现潜在大数据交付的七个步骤
大数据趋势代表了不断变化的处理大量数据的需求,需要新的技术解决方案,而不一定是老一代的数据库处理方式。那么,企业开始与大数据打交道时需要考虑哪些因素呢?
首先,他们需要知道什么是大数据。如下是我如何定义大数据这一概念:
“新兴技术和实践方案,使收集、处理、发现和储存大量结构化和非结构化数据变得快速而富有成本效益。”
大数据涵盖了众多社会生活的范畴——从金融交易到人类基因组,从汽车的遥测传感器到互联网上社会媒体日志。利用传统的数据库方式来处理和存储这些大数据是相当昂贵的。为了解决这个问题的新技术,利用开放源解决方案和商业硬件高效存储数据,并行工作负载,提供快速处理能力。
随着越来越多的IT部门开始研究大数据的替代品,讨论中心栈,处理速度和平台。而这些IT部门无法很好的把握其现有技术的局限性,许多不能阐明这些替代方案的商业价值,更遑论他们将如何进行分类和优先级的数据排序,进入大数据治理。
事实上,我们所看到的新出现的大数据需求,以及关于其处理平台和流程的讨论只是大数据传输整体的一部分。在现实中,实现的全部潜在大数据的交付过程,需要七个步骤:
收集:从数据源和分布在多个节点处收集数据——通常是一个网格——每个进程的一个子集,并行数据。
流程:然后系统使用相同的高功率并行执行,对每个节点上的数据进行快速计算。节点“压缩”结果数据到更多的消费数据,由此产生的数据集可以被人工(在分析的情况下)或机器(在解释大型结果的情况下)使用。[page] 管理:正在处理大数据往往是异构的,来自不同的交易系统。这些数据通常需要理解、定义、注释,并且以安全起见,还要进行扫描和审核。
测量:公司往往会测量数据的速率,可与其他客户的行为或记录进行整合,并随时间的推移来决定是否对其进行整合或校正。业务要求应告知测量和持续跟踪的类型。
消耗:所产生的使用数据应符合原要求的处理流程。例如,如果利用几百TB的社会化媒体数据互动,有助于我们了解社会媒体数据如何驱动用户额外购买产品,那么我们应该建立社会媒体的数据应当如何被访问和更新的规则。这与机器对机器的数据访问是同样重要的。
存储:由于“数据即服务”趋势的形成,越来越多的数据开始存储在单一位置,以便于进程的访问。数据用于短期的存储批处理或长期保留,应审慎处理存储解决方案。
数据管理:数据治理是驱动业务的决策和监督数据。根据数据治理的定义,数据治理适用于六个前阶段的大数据传输。通过建立流程和指导原则,制裁围绕数据的行为。大数据需要根据其预期消费进行管辖。其他的风险是对于数据分配的不满,更不用说过度投资。
大多数工作人员负责调查和获取大数据解决方案侧重于收集和存储步骤,而牺牲了其他的步骤。他们的问题是:“我们如何收集所有这些数据,我们把这些数据存储在何处?”
但许多IT部门仍然逃避了定义离散的大数据业务需求的进程。而业务人士经常将大数据的趋势看成只是一个IT重新整修的借口,没有明确的终点的游戏。这种相互嘲讽的环境就是为什么大数据没有超越“前期调查阶段”的罪魁祸首。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22