京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大思维促大数据战略
你一定知道,所有的数字都是数据。如今的硬件和软件已不能应对以如此高速产生的形式多样的海量数据。大数据变得如此复杂,其变化如此迅速,传统的数据工具已难以对之进行处理、存储、分析和管理。数据量如此之大,以致问对问题和找对答案跟大海捞针一样困难。
幸运的是,用现有的硬件、工具和算法能将所有数据转化为有用的信息。从这些信息中提|炼出的洞见能用来改善你所在组织的决策,提高其效率,降低其成本并增加收入。大数据革|命带来了广泛的影响,并且会遍及各行业的所有企业。
大数据的七个V
有一点是公认的,即大数据可以用三个“V”来解释:速度(velocity)、种类(variety)和数量(volume)。不过,笔者还想加入真实性(veracity)、可变性(variability)、可视化(visualization)和价值(value)的概念,以更好地解释精心计划过的大数据战略。
速度:速度是指数据产生、存储、分析和形象化的速度。当前数据的生成速度几乎超出我们的想象:每分钟,我们向YouTube上传的视频总时长达到100小时。此外,人们每分钟发送超过2亿份电子邮件,查看约2,000万张照片,并将3万张照片上传到Flickr相册,发送近30万条推特消息,谷歌每分钟处理近250万次请求。
多样性:过去所有的数据都是结构化的,可以很容易地进行归类,不过这种情况已经一去不复返了。如今,90%的数据都是非结构化的。数据可以有许多不一样的格式,包括结构化、半结构化、非结构化,甚至是复杂结构化的数据。
每一类型的数据都需要配以不同类型的分析法和解读工具。像脸书(Facebook)或推特(Tweet)这样的社交媒体可以提供深入的见解,让你了解客户对企业的品牌、服务或产品的看法,而传感器数据提供的信息则是用户对产品或机器的使用情况,让你获得可用于改进产品的洞见。
数量:按照如今数据产生的速度,每两年数据量就能翻上一倍。在2011年,我们创造的数据总量令人咂舌,共有1.8ZB。而根据IDC在2011年的研究,到了2020年这一数字将是现在的50倍。这个数量是相当可观的,而这个数字宇宙中相当大的一个数据来源就是物联网,物联网在世界各地各种设备上安装的传感器每分每秒都在传输数据。
让我们来看一些例子。飞机在引擎上安装的传感器每年会产生约25亿TB的数据。而安装在农业拖拉机上的传感器也会产生和采集大量数据。约翰迪尔公司(John Deere)使用传感器数据来监控机械的优化,控制日益壮大的农机队伍,并且帮助农产业者优化决策。壳牌(Shell)也在油井中使用高灵敏度传感器来寻找更多的油,如果公司在所有1万口油井中安装这种传感器,每年大约会采集10EB的数据。
真实性:如果数据本身存在缺陷,那么即使采集高速产生的大量数据也毫无价值。不正确的数据可导致组织乃至消费者面临严重的问题。如果你希望组织能够以信息为中心,那么就需要确保你的数据和分析法都正确无误。在进行自动化决策时,这一条尤其关键,因为整个过程不再有人的参与。但令人震惊的是,企业领导者有三分之一不相信他们用来做决策的信息。所以,如果你想要制定大数据战略,就需要高度注重数据的正确性以及分析的准确度。
可变性:可变性往往会与多样性的概念相混淆。我们可以举个例子说明它们之间的区别。如果面包店销售十种不同的面包,这就是多样性。如果同一种面包每天的口感和香味都不一样,那就是可变性。在进行情感分析时,可变性与主题的关联非常密切。
可变性意味着定义会(迅速)改变。在类似的推特消息中,同一个词可能会有截然不同的含义。要想正确地进行情感分析,所用的算法必须能够根据上下文解读一个词的准确含义。不过,这一点目前仍然是一个亟待解决的技术难题。
可视化:这是大数据中比较难办的部分。这表示你需要帮助受众以容易阅读和理解的方式了解大量的数据。经过正确的可视化操作后,原始数据就可以发挥作用。当然,这里说的可视化并不等于普通的图表或饼状图,而是包含多种数据变量的复杂图表,同时又易于人们阅读和理解。
可视化或许不是技术上难度最大的任务,但肯定是最具挑战性的。使用图表来解说一个复杂的故事很有难度,但同样也极为重要。幸运的是,越来越多的大数据初创公司专注于解决这个领域的挑战。归根结底,可视化能发挥关键的作用,并且它能帮助提高可读性。
价值:所有可用数据都能为组织、社群和消费者创造大量的价值。大数据意味着大量业务,各行各业都能从中有所收益。当然,数据本身完全没有价值。其价值存在于根据数据完成的分析以及如何将数据转化为信息,从而最终变成知识和智慧。数据的价值在于组织如何使用它们来创造以信息为中心的公司,根据数据分析得出的洞见进行决策。
关于大数据的五个事实
现在我们已经对大数据进行了定义,你需要了解你的组织在制定大数据战略时,应当注意到其中哪些方面最重要。大数据需要对范式进行转变,理解这一点能帮助你的组织在利用大数据方面取得进展。
1、大数据需要不一样的企业文化。要想真正发挥大数据的作用,你的组织需要成为以信息为中心的公司。
这种文化上的转变能让企业更注重在数据的推动下进行决策,并让你的员工有机会基于真实的数据而非估算结果来开发新的运营、战术和战略计划。利用大数据的企业文化要求公司鼓励员工在每一个客户接触点上采集数据。他们需要询问正确的问题,并以精确的数据作答。
2、组织内的人才是大数据背后真正的驱动因子。尽管文化上的转变对于充分发挥大数据的潜力很重要,大数据战略的开发却是由组织内的人完成的。尤其是,中层经理人和高管应当明白大数据是什么,以及如何将其应用到组织上。如果有更多的决策者意识到大数据的好处,就更有可能制定和实施成功的大数据战略。
要开始成功开发大数据,首先要在组织内找到正确的发起人,尤其是在初期回报不确定和成本高居不下时更是如此。最理想的做法就是发动一位高级管理者或董事会成员,因为这些人在最初结果不利的情况下,也有足够的权力支持大数据项目。
3、大数据确实需要“大”的安全措施。如果一个组织聚集了大量宝贵数据,就需要保护这些信息免遭不法分子的盗用。因此保护搜集来的所有数据有着极为重要的意义。要保护你的数据,有许多种方法,最常见的是对信息进行正确加密。当然,其他的方法也很多,所以你的大数据团队应始终将数据的安全性当作自己的一项责任。
不过,每个组织还是应当事先准备应急预案,以防数据真的被黑客盗取。出人意料的是,许多公司在遇到与计算机相关的信息安全事件时完全不知所措。这种安全事件可以给企业带来灾难性的后果。如果公司缺乏必要的安全手段,甚至连被黑客入侵了都没发觉,那么后果就更加严重了。
因此,公司应当委派内部人员或使用专门的外部机构的服务,针对潜在的信息安全袭击拟定应急预案。如果公司对组织和客户的数据不加保护,那迟早会关门大吉。如果未雨绸缪了,情况又会大不一样。
4、世界各地的政府正加紧在大数据上的投入。与组织一样,政府也在产生越来越多的数据。许多政府也在进行数字化的转型。以荷兰为例,该国政府希望全面转型数字化办公,并在2017年底彻底淘汰纸质通信。想象一下,1,700万公民在跟国家、地区和县市各级政府通信时可以产生多少数据?
随着这种方案的出现,组织也能够更广泛地接触到公共数据集,从而引发人们针对世界各地的问题提出创新性的解决方案。私营领域启动的数据集项目也越来越多。这种为组织搜集公共和私营数据集的行为已经形成了市场。用户能以访客身份购买数据集或是免费下|载。在某些网站上,还有组织出|售他们自己的数据集。
5、大数据的关键并不在于数据的量。人们通常认为“大数据”这个词表示大量的数据。结果,许多人认为大数据战略只有在你拥有PB或EB级别的数据时才有用。这是不对的。大数据远远不只是收集来的大量数据。大数据更主要的是组合不同来源、不同时间的不同变量的数据集。特别是组合并随之分析不同的数据集,从中找到有价值的新洞见。
此外,大数据指的是对可用的数据进行实时分析,并利用各种算法来预测行为。实时的洞见对于组织来说是十分宝贵的,可以让组织预知客户在短期内的行为。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22