京公网安备 11010802034615号
经营许可证编号:京B2-20210330
关于大数据的五大谬见
近期,有关大数据的新闻占据着各大媒体科技报道的主要版面。但是,有许多文章似乎华而不实,一些报道鼓吹大数据是能够解决一切问题的解决方案,如它能进行入侵检测、预防诈骗、治疗癌症,甚至还能设置最优的产品价格。
但是,业界定义的大数据是指迅速收集的、各种各样的、大量的数据集合,而不是能够处理一切问题的万能解决方案。在现实中,如果一些企业偏信这些与大数据相关的谬见,那么这些企业很可能会偏离正轨,走向错误的发展方向,浪费大量的时间和金钱,丧失其在市场上有利的竞争地位,还可能损害企业的声誉。
此篇文章就讲述了业界常出现的有关大数据五大谬见。
1. 只有数据科学家才能处理大数据
事实上,在处理大数据时,光靠数据科学家是远远不够的。
“如果你不能首先确定到底需要什么样的信息的话,那么单凭数据科学家自己是不可能成功地从大数据中提取有用信息的”,宾夕法尼亚大学医院(Penn Medicine)数据分析部门高级主管Pat Farrell说:“你还需要熟悉业界动态、掌握相关领域知识的人才,他们知道问题的所在,也了解什么样的解决方案对于你所从事的领域最有价值。”
例如,在宾夕法尼亚大学医院有两个系统,一个是医疗系统,一个是医学院系统。长期以来,医疗系统通常从一个数据仓库中收集临床医疗数据。与此同时,在医学院系统中,出现了一个新的技术,可以实现对人类基金组的排序,并产生了大量的数据。
Farrell说:“我们知道这些数据一定存在着某些价值,而我们最终也有了能够获取这些价值的计算能力。我们将专业的医疗知识与数据分析技术相结合,为预测医疗开拓了一片新的、更广阔的领域。”
2. 数据越大,价值越大
收集数据,并把它储存起来再登记入册,这会花费许多时间、占用很多资源。如果企业或机构在收集数据时不加选择、任意地收集大量数据,那么很可能会造成大量的资源浪费,而这些资源完全可以用到更有价值的项目上去。
Farrell建议企业在收集数据之前一定要有一个具体的目标,或关键性能指标,要明确自己需要什么样的数据,再去有目的地收集数据。
Farrell说:“你需要从你收集的数据中提取有价值的信息,但这并不代表你收集的数据越多,你所获得的价值越大。”
3.大数据用于大企业
大企业或许会有更多的内部数据来源,他们可以利用这些数据获取对自身企业发展有价值的东西。但这并不代表大数据只用于大企业,小企业也能够收集来自社交媒体平台、政府机构和数据供应商的数据,并从这些数据中提取有利信息。
戴尔软件信息管理解决方案部门的产品管理高级总监Darin Bartik说:“对于企业来说,不管它的规模有多大,利用数据分析制定的决策总比单纯依靠直觉或第六感制定的决策要好得多,且更加可靠。”
小企业虽然不像大企业那样经常利用数据分析来制定决策,但是当这些小企业真正这样做的时候,它们会使公司走向快速、正确的发展轨道。
Darin Bartik说:“小企业可以利用其最佳实践,进一步推动数据分析决策在企业中的发展,以此赶超或者胜过那些强大的竞争对手。”
4. 收集数据后不及时整理分类
位于美国旧金山的云计算商业智能供应商Birst的首席执行官Brad Peters表示,虽然数据存储的成本越来越低,但它并不是免费的。然而,对于许多大公司来说,它们对于数据欲望的增长速度要比数据存储成本降低的速度快得多。
许多企业往往在收集完数据之后,并不迅速处理这些数据,造成数据存储成本增加。Brad Peters说:“我发现很多大的企业或机构收集了一大堆数据之后却不及时处理这些数据,导致他们在这些数据上的开支逐渐增大,而他们也并没有从这些数据中获取任何价值。”
事实上,企业中的一些数据集已经开始造成了企业的收益递减。这种现象就像通过分析选民数据信息来预测选举结果一样,在预测过程中,你需要一定数量的选民作为样本,但是如果样本数量超过一个临界点之后,无论增加多少选民,对于预测结果不会有任何太大的影响。也就是说,样本数量过多,所花费的成本也就越多,但对于目标没有任何实质性的价值。
“数据冗余的话,企业支出的不仅仅是存储成本,还会面临许多其他的问题”, Recommind公司信息治理和大数据管理全球主管Dean Gonsowski说。比如,如果数据泄露的话,那么公司也会承担相应的损失。Recommind是一家位于美国旧金山的专注于非结构化数据分析的公司。
最终,数据越多,那么分类整理数据所需要的时间也就越多。Dean
Gonsowski说:“当数据仓库的规模达到数十亿条记录时,那么光是检索数据就需要花上几个小时,甚至是几个星期。这时候,这些信息非但不会给企业带来商业价值,反而会阻碍企业系统的运转,因为这些系统根本不能处理这么大信息量。”
5. 所有数据都是一样的
美国佛吉尼亚州曾收集过在过去20年里学生的注册信息、奖学金,以及学位授予情况的数据,但这并不意味着20年前收集的与之存储在同一个数据域里的数据就一定是相同的数据。
佛吉尼亚州高等教育委员会的政策研究和数据仓库部门的主管Tod
Massa说:“由于数据都存储在一个数据仓库里,这导致研究人员认为这些数据都是等同的,而这正是我需要处理的一个最大的问题。我们收集的ACT(American
College Test,美国大学入学考试)和SAT(Scholastic Assessment
Test,学术能力评估测试)的学生成绩,最初我们收集的只是整个佛吉尼亚州的学生成绩,但这导致我们的调查研究出现一个缺口,所以后来我们不仅收集了佛吉尼亚州的数据,还收集了其他州学生的数据。而且,不同种族在K-12级和高等教育的数据也不同。”
事实上,任何特定的数据,如果由不同的组织机构,或在不同的时间内,或由不同的人发布的话,也有所不同。Tod
Massa说:“假如收集数据的这家公司或机构是完全孤立或与世隔绝的,那么情况可能会不一样。但我认为,随着时间的推移,它们收集的数据也会有所变化。”
因此,数据分析人员不仅要有数据统计的技能,还要掌握一定的数据知识,并清楚地了解相关行业内的动向和整体发展趋势。
这一点也同样适用于从外部数据源收集的数据,过去的那种数据收集和分析的方式已经完全改变了。能够了解不同的数据文化背景和数据环境,对于充分利用这些数据是非常必要的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17