京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大思维促大数据战略
你一定知道,所有的数字都是数据。如今的硬件和软件已不能应对以如此高速产生的形式多样的海量数据。大数据变得如此复杂,其变化如此迅速,传统的数据工具已难以对之进行处理、存储、分析和管理。数据量如此之大,以致问对问题和找对答案跟大海捞针一样困难。
幸运的是,用现有的硬件、工具和算法能将所有数据转化为有用的信息。从这些信息中提|炼出的洞见能用来改善你所在组织的决策,提高其效率,降低其成本并增加收入。大数据革|命带来了广泛的影响,并且会遍及各行业的所有企业。
大数据的七个V
有一点是公认的,即大数据可以用三个“V”来解释:速度(velocity)、种类(variety)和数量(volume)。不过,笔者还想加入真实性(veracity)、可变性(variability)、可视化(visualization)和价值(value)的概念,以更好地解释精心计划过的大数据战略。
速度:速度是指数据产生、存储、分析和形象化的速度。当前数据的生成速度几乎超出我们的想象:每分钟,我们向YouTube上传的视频总时长达到100小时。此外,人们每分钟发送超过2亿份电子邮件,查看约2,000万张照片,并将3万张照片上传到Flickr相册,发送近30万条推特消息,谷歌每分钟处理近250万次请求。
多样性:过去所有的数据都是结构化的,可以很容易地进行归类,不过这种情况已经一去不复返了。如今,90%的数据都是非结构化的。数据可以有许多不一样的格式,包括结构化、半结构化、非结构化,甚至是复杂结构化的数据。
每一类型的数据都需要配以不同类型的分析法和解读工具。像脸书(Facebook)或推特(Tweet)这样的社交媒体可以提供深入的见解,让你了解客户对企业的品牌、服务或产品的看法,而传感器数据提供的信息则是用户对产品或机器的使用情况,让你获得可用于改进产品的洞见。
数量:按照如今数据产生的速度,每两年数据量就能翻上一倍。在2011年,我们创造的数据总量令人咂舌,共有1.8ZB。而根据IDC在2011年的研究,到了2020年这一数字将是现在的50倍。这个数量是相当可观的,而这个数字宇宙中相当大的一个数据来源就是物联网,物联网在世界各地各种设备上安装的传感器每分每秒都在传输数据。
让我们来看一些例子。飞机在引擎上安装的传感器每年会产生约25亿TB的数据。而安装在农业拖拉机上的传感器也会产生和采集大量数据。约翰迪尔公司(John Deere)使用传感器数据来监控机械的优化,控制日益壮大的农机队伍,并且帮助农产业者优化决策。壳牌(Shell)也在油井中使用高灵敏度传感器来寻找更多的油,如果公司在所有1万口油井中安装这种传感器,每年大约会采集10EB的数据。
真实性:如果数据本身存在缺陷,那么即使采集高速产生的大量数据也毫无价值。不正确的数据可导致组织乃至消费者面临严重的问题。如果你希望组织能够以信息为中心,那么就需要确保你的数据和分析法都正确无误。在进行自动化决策时,这一条尤其关键,因为整个过程不再有人的参与。但令人震惊的是,企业领导者有三分之一不相信他们用来做决策的信息。所以,如果你想要制定大数据战略,就需要高度注重数据的正确性以及分析的准确度。
可变性:可变性往往会与多样性的概念相混淆。我们可以举个例子说明它们之间的区别。如果面包店销售十种不同的面包,这就是多样性。如果同一种面包每天的口感和香味都不一样,那就是可变性。在进行情感分析时,可变性与主题的关联非常密切。
可变性意味着定义会(迅速)改变。在类似的推特消息中,同一个词可能会有截然不同的含义。要想正确地进行情感分析,所用的算法必须能够根据上下文解读一个词的准确含义。不过,这一点目前仍然是一个亟待解决的技术难题。
可视化:这是大数据中比较难办的部分。这表示你需要帮助受众以容易阅读和理解的方式了解大量的数据。经过正确的可视化操作后,原始数据就可以发挥作用。当然,这里说的可视化并不等于普通的图表或饼状图,而是包含多种数据变量的复杂图表,同时又易于人们阅读和理解。
可视化或许不是技术上难度最大的任务,但肯定是最具挑战性的。使用图表来解说一个复杂的故事很有难度,但同样也极为重要。幸运的是,越来越多的大数据初创公司专注于解决这个领域的挑战。归根结底,可视化能发挥关键的作用,并且它能帮助提高可读性。
价值:所有可用数据都能为组织、社群和消费者创造大量的价值。大数据意味着大量业务,各行各业都能从中有所收益。当然,数据本身完全没有价值。其价值存在于根据数据完成的分析以及如何将数据转化为信息,从而最终变成知识和智慧。数据的价值在于组织如何使用它们来创造以信息为中心的公司,根据数据分析得出的洞见进行决策。
关于大数据的五个事实
现在我们已经对大数据进行了定义,你需要了解你的组织在制定大数据战略时,应当注意到其中哪些方面最重要。大数据需要对范式进行转变,理解这一点能帮助你的组织在利用大数据方面取得进展。
1、大数据需要不一样的企业文化。要想真正发挥大数据的作用,你的组织需要成为以信息为中心的公司。
这种文化上的转变能让企业更注重在数据的推动下进行决策,并让你的员工有机会基于真实的数据而非估算结果来开发新的运营、战术和战略计划。利用大数据的企业文化要求公司鼓励员工在每一个客户接触点上采集数据。他们需要询问正确的问题,并以精确的数据作答。
2、组织内的人才是大数据背后真正的驱动因子。尽管文化上的转变对于充分发挥大数据的潜力很重要,大数据战略的开发却是由组织内的人完成的。尤其是,中层经理人和高管应当明白大数据是什么,以及如何将其应用到组织上。如果有更多的决策者意识到大数据的好处,就更有可能制定和实施成功的大数据战略。
要开始成功开发大数据,首先要在组织内找到正确的发起人,尤其是在初期回报不确定和成本高居不下时更是如此。最理想的做法就是发动一位高级管理者或董事会成员,因为这些人在最初结果不利的情况下,也有足够的权力支持大数据项目。
3、大数据确实需要“大”的安全措施。如果一个组织聚集了大量宝贵数据,就需要保护这些信息免遭不法分子的盗用。因此保护搜集来的所有数据有着极为重要的意义。要保护你的数据,有许多种方法,最常见的是对信息进行正确加密。当然,其他的方法也很多,所以你的大数据团队应始终将数据的安全性当作自己的一项责任。
不过,每个组织还是应当事先准备应急预案,以防数据真的被黑客盗取。出人意料的是,许多公司在遇到与计算机相关的信息安全事件时完全不知所措。这种安全事件可以给企业带来灾难性的后果。如果公司缺乏必要的安全手段,甚至连被黑客入侵了都没发觉,那么后果就更加严重了。
因此,公司应当委派内部人员或使用专门的外部机构的服务,针对潜在的信息安全袭击拟定应急预案。如果公司对组织和客户的数据不加保护,那迟早会关门大吉。如果未雨绸缪了,情况又会大不一样。
4、世界各地的政府正加紧在大数据上的投入。与组织一样,政府也在产生越来越多的数据。许多政府也在进行数字化的转型。以荷兰为例,该国政府希望全面转型数字化办公,并在2017年底彻底淘汰纸质通信。想象一下,1,700万公民在跟国家、地区和县市各级政府通信时可以产生多少数据?
随着这种方案的出现,组织也能够更广泛地接触到公共数据集,从而引发人们针对世界各地的问题提出创新性的解决方案。私营领域启动的数据集项目也越来越多。这种为组织搜集公共和私营数据集的行为已经形成了市场。用户能以访客身份购买数据集或是免费下|载。在某些网站上,还有组织出|售他们自己的数据集。
5、大数据的关键并不在于数据的量。人们通常认为“大数据”这个词表示大量的数据。结果,许多人认为大数据战略只有在你拥有PB或EB级别的数据时才有用。这是不对的。大数据远远不只是收集来的大量数据。大数据更主要的是组合不同来源、不同时间的不同变量的数据集。特别是组合并随之分析不同的数据集,从中找到有价值的新洞见。
此外,大数据指的是对可用的数据进行实时分析,并利用各种算法来预测行为。实时的洞见对于组织来说是十分宝贵的,可以让组织预知客户在短期内的行为。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09