京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大思维促大数据战略
你一定知道,所有的数字都是数据。如今的硬件和软件已不能应对以如此高速产生的形式多样的海量数据。大数据变得如此复杂,其变化如此迅速,传统的数据工具已难以对之进行处理、存储、分析和管理。数据量如此之大,以致问对问题和找对答案跟大海捞针一样困难。
幸运的是,用现有的硬件、工具和算法能将所有数据转化为有用的信息。从这些信息中提|炼出的洞见能用来改善你所在组织的决策,提高其效率,降低其成本并增加收入。大数据革|命带来了广泛的影响,并且会遍及各行业的所有企业。
大数据的七个V
有一点是公认的,即大数据可以用三个“V”来解释:速度(velocity)、种类(variety)和数量(volume)。不过,笔者还想加入真实性(veracity)、可变性(variability)、可视化(visualization)和价值(value)的概念,以更好地解释精心计划过的大数据战略。
速度:速度是指数据产生、存储、分析和形象化的速度。当前数据的生成速度几乎超出我们的想象:每分钟,我们向YouTube上传的视频总时长达到100小时。此外,人们每分钟发送超过2亿份电子邮件,查看约2,000万张照片,并将3万张照片上传到Flickr相册,发送近30万条推特消息,谷歌每分钟处理近250万次请求。
多样性:过去所有的数据都是结构化的,可以很容易地进行归类,不过这种情况已经一去不复返了。如今,90%的数据都是非结构化的。数据可以有许多不一样的格式,包括结构化、半结构化、非结构化,甚至是复杂结构化的数据。
每一类型的数据都需要配以不同类型的分析法和解读工具。像脸书(Facebook)或推特(Tweet)这样的社交媒体可以提供深入的见解,让你了解客户对企业的品牌、服务或产品的看法,而传感器数据提供的信息则是用户对产品或机器的使用情况,让你获得可用于改进产品的洞见。
数量:按照如今数据产生的速度,每两年数据量就能翻上一倍。在2011年,我们创造的数据总量令人咂舌,共有1.8ZB。而根据IDC在2011年的研究,到了2020年这一数字将是现在的50倍。这个数量是相当可观的,而这个数字宇宙中相当大的一个数据来源就是物联网,物联网在世界各地各种设备上安装的传感器每分每秒都在传输数据。
让我们来看一些例子。飞机在引擎上安装的传感器每年会产生约25亿TB的数据。而安装在农业拖拉机上的传感器也会产生和采集大量数据。约翰迪尔公司(John Deere)使用传感器数据来监控机械的优化,控制日益壮大的农机队伍,并且帮助农产业者优化决策。壳牌(Shell)也在油井中使用高灵敏度传感器来寻找更多的油,如果公司在所有1万口油井中安装这种传感器,每年大约会采集10EB的数据。
真实性:如果数据本身存在缺陷,那么即使采集高速产生的大量数据也毫无价值。不正确的数据可导致组织乃至消费者面临严重的问题。如果你希望组织能够以信息为中心,那么就需要确保你的数据和分析法都正确无误。在进行自动化决策时,这一条尤其关键,因为整个过程不再有人的参与。但令人震惊的是,企业领导者有三分之一不相信他们用来做决策的信息。所以,如果你想要制定大数据战略,就需要高度注重数据的正确性以及分析的准确度。
可变性:可变性往往会与多样性的概念相混淆。我们可以举个例子说明它们之间的区别。如果面包店销售十种不同的面包,这就是多样性。如果同一种面包每天的口感和香味都不一样,那就是可变性。在进行情感分析时,可变性与主题的关联非常密切。
可变性意味着定义会(迅速)改变。在类似的推特消息中,同一个词可能会有截然不同的含义。要想正确地进行情感分析,所用的算法必须能够根据上下文解读一个词的准确含义。不过,这一点目前仍然是一个亟待解决的技术难题。
可视化:这是大数据中比较难办的部分。这表示你需要帮助受众以容易阅读和理解的方式了解大量的数据。经过正确的可视化操作后,原始数据就可以发挥作用。当然,这里说的可视化并不等于普通的图表或饼状图,而是包含多种数据变量的复杂图表,同时又易于人们阅读和理解。
可视化或许不是技术上难度最大的任务,但肯定是最具挑战性的。使用图表来解说一个复杂的故事很有难度,但同样也极为重要。幸运的是,越来越多的大数据初创公司专注于解决这个领域的挑战。归根结底,可视化能发挥关键的作用,并且它能帮助提高可读性。
价值:所有可用数据都能为组织、社群和消费者创造大量的价值。大数据意味着大量业务,各行各业都能从中有所收益。当然,数据本身完全没有价值。其价值存在于根据数据完成的分析以及如何将数据转化为信息,从而最终变成知识和智慧。数据的价值在于组织如何使用它们来创造以信息为中心的公司,根据数据分析得出的洞见进行决策。
关于大数据的五个事实
现在我们已经对大数据进行了定义,你需要了解你的组织在制定大数据战略时,应当注意到其中哪些方面最重要。大数据需要对范式进行转变,理解这一点能帮助你的组织在利用大数据方面取得进展。
1、大数据需要不一样的企业文化。要想真正发挥大数据的作用,你的组织需要成为以信息为中心的公司。
这种文化上的转变能让企业更注重在数据的推动下进行决策,并让你的员工有机会基于真实的数据而非估算结果来开发新的运营、战术和战略计划。利用大数据的企业文化要求公司鼓励员工在每一个客户接触点上采集数据。他们需要询问正确的问题,并以精确的数据作答。
2、组织内的人才是大数据背后真正的驱动因子。尽管文化上的转变对于充分发挥大数据的潜力很重要,大数据战略的开发却是由组织内的人完成的。尤其是,中层经理人和高管应当明白大数据是什么,以及如何将其应用到组织上。如果有更多的决策者意识到大数据的好处,就更有可能制定和实施成功的大数据战略。
要开始成功开发大数据,首先要在组织内找到正确的发起人,尤其是在初期回报不确定和成本高居不下时更是如此。最理想的做法就是发动一位高级管理者或董事会成员,因为这些人在最初结果不利的情况下,也有足够的权力支持大数据项目。
3、大数据确实需要“大”的安全措施。如果一个组织聚集了大量宝贵数据,就需要保护这些信息免遭不法分子的盗用。因此保护搜集来的所有数据有着极为重要的意义。要保护你的数据,有许多种方法,最常见的是对信息进行正确加密。当然,其他的方法也很多,所以你的大数据团队应始终将数据的安全性当作自己的一项责任。
不过,每个组织还是应当事先准备应急预案,以防数据真的被黑客盗取。出人意料的是,许多公司在遇到与计算机相关的信息安全事件时完全不知所措。这种安全事件可以给企业带来灾难性的后果。如果公司缺乏必要的安全手段,甚至连被黑客入侵了都没发觉,那么后果就更加严重了。
因此,公司应当委派内部人员或使用专门的外部机构的服务,针对潜在的信息安全袭击拟定应急预案。如果公司对组织和客户的数据不加保护,那迟早会关门大吉。如果未雨绸缪了,情况又会大不一样。
4、世界各地的政府正加紧在大数据上的投入。与组织一样,政府也在产生越来越多的数据。许多政府也在进行数字化的转型。以荷兰为例,该国政府希望全面转型数字化办公,并在2017年底彻底淘汰纸质通信。想象一下,1,700万公民在跟国家、地区和县市各级政府通信时可以产生多少数据?
随着这种方案的出现,组织也能够更广泛地接触到公共数据集,从而引发人们针对世界各地的问题提出创新性的解决方案。私营领域启动的数据集项目也越来越多。这种为组织搜集公共和私营数据集的行为已经形成了市场。用户能以访客身份购买数据集或是免费下|载。在某些网站上,还有组织出|售他们自己的数据集。
5、大数据的关键并不在于数据的量。人们通常认为“大数据”这个词表示大量的数据。结果,许多人认为大数据战略只有在你拥有PB或EB级别的数据时才有用。这是不对的。大数据远远不只是收集来的大量数据。大数据更主要的是组合不同来源、不同时间的不同变量的数据集。特别是组合并随之分析不同的数据集,从中找到有价值的新洞见。
此外,大数据指的是对可用的数据进行实时分析,并利用各种算法来预测行为。实时的洞见对于组织来说是十分宝贵的,可以让组织预知客户在短期内的行为。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09