
高层管理者对于大数据的6个误解
大数据已经成为一个如此普遍的流行词,但有人认为其几乎是毫无意义的。一名IT行业专家表示,其曾从事信息技术工作超过十年,并记得当时订购新的驱动器和存储设备来处理文件和电子邮件,那时读取上千兆字节的信息,当时以为这样大量的数据就是大数据。
经过七年职业生涯的变迁,这个IT专家就职于亚马逊公司,并在他们的数据仓库中运行SQL查询。该数据库的范围之广,让其甚至花费一个星期的时间汇总数据,而无需再采用Excel表格。他以为明白了什么是大数据,但事实证明,并没有任何线索。
大数据如此普遍已经成为一个流行词,但它几乎是毫无意义的。在一次聚会上,这位专家听到有人说,“每家公司都是一家大数据公司。”并让他解释时,他说,如今每家公司都在购买和销售大数据。这位专家认为虽然所有的公司都可以使用大数据或基于大数据的应用程序,但并不是所有的公司都立足于他们的商业模式。他认为在其职业生涯被这种误解迷惑过,因此,他分享了一些自己的误解。
以下是IT高层管理者对于大数据六个最大的误解和错觉:
1.所有的数据是大数据。
调查机构Gartner公司称,大数据必须是大容量,高速度或多样化的各种数据。这意味着,如果你的数据只是处理容纳一个Excel文件,那么你不是在处理大数据。如果你只处理测量千兆字节的数据集,并采用个人电脑能处理,那么你不是在处理大数据。也许你正在处理数千兆字节电子邮件,而你不知道如何处理它,但这并不意味着它是大数据。
2.大数据解决每一个问题。
一些高管认为大数据可以解决一切问题。他们中的许多人都掌握大数据分析来解决问题,而不是使用常识。有一次行业专家和IT高管们试图找出为什么其网站访问人数和销售在四月的一个星期期间急剧下跌,前一年同一周没有经历过同样的下降。他们要求进行分析,在分析之后,直到有人说,“嗯,我们每年都看到网站数据在复活节减少,而去年复活节是在三月。”大数据和分析没有帮助我们弄清这一点,但通过社会常识和日历却可以弄明白。
3.大数据是没有意义的。
关于大数据的“一切”错误观念的另一面是:大数据并不重要。这个观点可以更容易理解,因为大数据的定义表明,它很难处理和理解。如果你不能从大数据中洞察见解或用它来为你的系统提供益处,那确实是毫无意义的。而有着这样观点的IT管理人员虽然了解大数据,却从未从中学到了什么。
为了让大数据变得有意义,你需要能够处理和使用它,其大数据的公司能够更方便实施。这些公司通过收集,清洗起来,组织数据,并通过数据科学家或其他系统可处理,并输出其方式。一旦数据科学家从数据是分析出信息,或者公司的系统使用的数据来执行类似的供应链业务运营,那么公司高管将开始看到大数据的价值。
4.大数据是很容易的。
不幸的是,这是一个常见的误解。让我们看看在世界上的每一个产品的有关信息和定价(免责声明:这是我的公司做的),例如。对于一个单一的产品来说,例如一双鞋,人们需要收集以下数据:
•品牌
•类别
•样式
•颜色
•鞋跟的高度
•材料
•尺寸
•宽度
•出售它的商店
•在这些商店的价格
•随着时间的推移,这些商店的价格
•每次看价格时,其库存如何
这是数学:查询数据库表明,11家不同的零售商在销售同一款,同一颜色的这双鞋。让我们假设正在收集一年中,每个商店销售这款鞋每周的价格和库存数据。这意味着我们有这双鞋的572条记录。如果我们想要追踪春定价和库存信息,其中包括所有16个女鞋的尺寸,这个数字将是9152条。这只是针对一双鞋收集的数据,而在商店鞋柜里的每一双都会创造更多的数据点。
增加的复杂性,在高需求的时间和促销时间收集的价格数据往往比每周一次收集还要多。每日价格和库存信息将意味着一双鞋子有着4015个数据点。亚马逊网站将添加描述这些产品的信息和每个尺寸,以及其对应的不同的价格。因此一双鞋的数据迅速膨胀。想象一下,在这个时代,多达数十亿的产品信息,将其放到你的电子表格中。因此,传统的收集和分析系统将面临大数据的规模的严峻挑战。
5.不完美的大数据是无用的。
这个错误让人疯狂的,因为完美的尺度基本上是不可能的。例如,IT部门试图实现让10亿个具有520个数据点的产品保持一个让人梦寐以求的“五个九”的完美标准(99.999%)。那么在此数据集中,仍然会有5200万个不正确的数据点。
大数据很少达到这种完美的原因很多。许多大的数据来源是远远不够完善。亚马逊公司作为抓取大数据来源之一的网站,很可能在产品名称产生拼写错误。大数据也需要建立和组织其机器学习和算法;在产品数据的世界里,这些可以很容易地根据标题或名称错误将产品进行分类。
缺陷并不表明无用,但。一个有能力的数据分析师可以去除异常,并从大数据中拔出重要的见解,即使有很多缺陷。开发人员可以添加过滤器,减少进入你的系统的错误,,并制定庞大的数据集,这将提高数据质量随着时间的推移训练算法。其中大数据的一个最大好处是,可以弥补偶尔缺陷,让你获得更好的见解。
6.只有大公司需要大数据。
小型营销企业需要网站的流量和关键字搜索的数字。小型购物公司需要尽可能多地链接联盟计划的大型零售商的产品,按需交付服务,并需要可靠的位置数据。这只是那些需要大数据的小型公司的一小部分。
大型公司可能会产生更多的自己的大数据,但几乎每家公司都在现代经济使用上构建了大数据或应用程序。这意味着所有的企业可以获得访问见解和信息,并获得这些庞大的数据集提供的好处,而无需建立和管理创建和分析大数据所需的基础设施。
如今,无论企业规模如何,都不可回避地采用大数据业务。希望了解这些,可以消除误解和错觉。毕竟,我们生活在大数据世界中。如果管理人员更好地理解复杂性,陷阱和大数据的能力,他们会更好地运行业务,做出更好的决策。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15