关于大数据的五大谬见
近期,有关大数据的新闻占据着各大媒体科技报道的主要版面。但是,有许多文章似乎华而不实,一些报道鼓吹大数据是能够解决一切问题的解决方案,如它能进行入侵检测、预防诈骗、治疗癌症,甚至还能设置最优的产品价格。
但是,业界定义的大数据是指迅速收集的、各种各样的、大量的数据集合,而不是能够处理一切问题的万能解决方案。在现实中,如果一些企业偏信这些与大数据相关的谬见,那么这些企业很可能会偏离正轨,走向错误的发展方向,浪费大量的时间和金钱,丧失其在市场上有利的竞争地位,还可能损害企业的声誉。
此篇文章就讲述了业界常出现的有关大数据五大谬见。
1. 只有数据科学家才能处理大数据
事实上,在处理大数据时,光靠数据科学家是远远不够的。
“如果你不能首先确定到底需要什么样的信息的话,那么单凭数据科学家自己是不可能成功地从大数据中提取有用信息的”,宾夕法尼亚大学医院(Penn Medicine)数据分析部门高级主管Pat Farrell说:“你还需要熟悉业界动态、掌握相关领域知识的人才,他们知道问题的所在,也了解什么样的解决方案对于你所从事的领域最有价值。”
例如,在宾夕法尼亚大学医院有两个系统,一个是医疗系统,一个是医学院系统。长期以来,医疗系统通常从一个数据仓库中收集临床医疗数据。与此同时,在医学院系统中,出现了一个新的技术,可以实现对人类基金组的排序,并产生了大量的数据。
Farrell说:“我们知道这些数据一定存在着某些价值,而我们最终也有了能够获取这些价值的计算能力。我们将专业的医疗知识与数据分析技术相结合,为预测医疗开拓了一片新的、更广阔的领域。”
2. 数据越大,价值越大
收集数据,并把它储存起来再登记入册,这会花费许多时间、占用很多资源。如果企业或机构在收集数据时不加选择、任意地收集大量数据,那么很可能会造成大量的资源浪费,而这些资源完全可以用到更有价值的项目上去。
Farrell建议企业在收集数据之前一定要有一个具体的目标,或关键性能指标,要明确自己需要什么样的数据,再去有目的地收集数据。
Farrell说:“你需要从你收集的数据中提取有价值的信息,但这并不代表你收集的数据越多,你所获得的价值越大。”
3.大数据用于大企业
大企业或许会有更多的内部数据来源,他们可以利用这些数据获取对自身企业发展有价值的东西。但这并不代表大数据只用于大企业,小企业也能够收集来自社交媒体平台、政府机构和数据供应商的数据,并从这些数据中提取有利信息。
戴尔软件信息管理解决方案部门的产品管理高级总监Darin Bartik说:“对于企业来说,不管它的规模有多大,利用数据分析制定的决策总比单纯依靠直觉或第六感制定的决策要好得多,且更加可靠。”
小企业虽然不像大企业那样经常利用数据分析来制定决策,但是当这些小企业真正这样做的时候,它们会使公司走向快速、正确的发展轨道。
Darin Bartik说:“小企业可以利用其最佳实践,进一步推动数据分析决策在企业中的发展,以此赶超或者胜过那些强大的竞争对手。”
4. 收集数据后不及时整理分类
位于美国旧金山的云计算商业智能供应商Birst的首席执行官Brad Peters表示,虽然数据存储的成本越来越低,但它并不是免费的。然而,对于许多大公司来说,它们对于数据欲望的增长速度要比数据存储成本降低的速度快得多。
许多企业往往在收集完数据之后,并不迅速处理这些数据,造成数据存储成本增加。Brad Peters说:“我发现很多大的企业或机构收集了一大堆数据之后却不及时处理这些数据,导致他们在这些数据上的开支逐渐增大,而他们也并没有从这些数据中获取任何价值。”
事实上,企业中的一些数据集已经开始造成了企业的收益递减。这种现象就像通过分析选民数据信息来预测选举结果一样,在预测过程中,你需要一定数量的选民作为样本,但是如果样本数量超过一个临界点之后,无论增加多少选民,对于预测结果不会有任何太大的影响。也就是说,样本数量过多,所花费的成本也就越多,但对于目标没有任何实质性的价值。
“数据冗余的话,企业支出的不仅仅是存储成本,还会面临许多其他的问题”, Recommind公司信息治理和大数据管理全球主管Dean Gonsowski说。比如,如果数据泄露的话,那么公司也会承担相应的损失。Recommind是一家位于美国旧金山的专注于非结构化数据分析的公司。
最终,数据越多,那么分类整理数据所需要的时间也就越多。Dean
Gonsowski说:“当数据仓库的规模达到数十亿条记录时,那么光是检索数据就需要花上几个小时,甚至是几个星期。这时候,这些信息非但不会给企业带来商业价值,反而会阻碍企业系统的运转,因为这些系统根本不能处理这么大信息量。”
5. 所有数据都是一样的
美国佛吉尼亚州曾收集过在过去20年里学生的注册信息、奖学金,以及学位授予情况的数据,但这并不意味着20年前收集的与之存储在同一个数据域里的数据就一定是相同的数据。
佛吉尼亚州高等教育委员会的政策研究和数据仓库部门的主管Tod
Massa说:“由于数据都存储在一个数据仓库里,这导致研究人员认为这些数据都是等同的,而这正是我需要处理的一个最大的问题。我们收集的ACT(American
College Test,美国大学入学考试)和SAT(Scholastic Assessment
Test,学术能力评估测试)的学生成绩,最初我们收集的只是整个佛吉尼亚州的学生成绩,但这导致我们的调查研究出现一个缺口,所以后来我们不仅收集了佛吉尼亚州的数据,还收集了其他州学生的数据。而且,不同种族在K-12级和高等教育的数据也不同。”
事实上,任何特定的数据,如果由不同的组织机构,或在不同的时间内,或由不同的人发布的话,也有所不同。Tod
Massa说:“假如收集数据的这家公司或机构是完全孤立或与世隔绝的,那么情况可能会不一样。但我认为,随着时间的推移,它们收集的数据也会有所变化。”
因此,数据分析人员不仅要有数据统计的技能,还要掌握一定的数据知识,并清楚地了解相关行业内的动向和整体发展趋势。
这一点也同样适用于从外部数据源收集的数据,过去的那种数据收集和分析的方式已经完全改变了。能够了解不同的数据文化背景和数据环境,对于充分利用这些数据是非常必要的。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14