京公网安备 11010802034615号
经营许可证编号:京B2-20210330
高层管理者对于大数据的6个误解
大数据已经成为一个如此普遍的流行词,但有人认为其几乎是毫无意义的。一名IT行业专家表示,其曾从事信息技术工作超过十年,并记得当时订购新的驱动器和存储设备来处理文件和电子邮件,那时读取上千兆字节的信息,当时以为这样大量的数据就是大数据。
经过七年职业生涯的变迁,这个IT专家就职于亚马逊公司,并在他们的数据仓库中运行SQL查询。该数据库的范围之广,让其甚至花费一个星期的时间汇总数据,而无需再采用Excel表格。他以为明白了什么是大数据,但事实证明,并没有任何线索。
大数据如此普遍已经成为一个流行词,但它几乎是毫无意义的。在一次聚会上,这位专家听到有人说,“每家公司都是一家大数据公司。”并让他解释时,他说,如今每家公司都在购买和销售大数据。这位专家认为虽然所有的公司都可以使用大数据或基于大数据的应用程序,但并不是所有的公司都立足于他们的商业模式。他认为在其职业生涯被这种误解迷惑过,因此,他分享了一些自己的误解。
以下是IT高层管理者对于大数据六个最大的误解和错觉:
1.所有的数据是大数据。
调查机构Gartner公司称,大数据必须是大容量,高速度或多样化的各种数据。这意味着,如果你的数据只是处理容纳一个Excel文件,那么你不是在处理大数据。如果你只处理测量千兆字节的数据集,并采用个人电脑能处理,那么你不是在处理大数据。也许你正在处理数千兆字节电子邮件,而你不知道如何处理它,但这并不意味着它是大数据。
2.大数据解决每一个问题。
一些高管认为大数据可以解决一切问题。他们中的许多人都掌握大数据分析来解决问题,而不是使用常识。有一次行业专家和IT高管们试图找出为什么其网站访问人数和销售在四月的一个星期期间急剧下跌,前一年同一周没有经历过同样的下降。他们要求进行分析,在分析之后,直到有人说,“嗯,我们每年都看到网站数据在复活节减少,而去年复活节是在三月。”大数据和分析没有帮助我们弄清这一点,但通过社会常识和日历却可以弄明白。
3.大数据是没有意义的。
关于大数据的“一切”错误观念的另一面是:大数据并不重要。这个观点可以更容易理解,因为大数据的定义表明,它很难处理和理解。如果你不能从大数据中洞察见解或用它来为你的系统提供益处,那确实是毫无意义的。而有着这样观点的IT管理人员虽然了解大数据,却从未从中学到了什么。
为了让大数据变得有意义,你需要能够处理和使用它,其大数据的公司能够更方便实施。这些公司通过收集,清洗起来,组织数据,并通过数据科学家或其他系统可处理,并输出其方式。一旦数据科学家从数据是分析出信息,或者公司的系统使用的数据来执行类似的供应链业务运营,那么公司高管将开始看到大数据的价值。
4.大数据是很容易的。
不幸的是,这是一个常见的误解。让我们看看在世界上的每一个产品的有关信息和定价(免责声明:这是我的公司做的),例如。对于一个单一的产品来说,例如一双鞋,人们需要收集以下数据:
•品牌
•类别
•样式
•颜色
•鞋跟的高度
•材料
•尺寸
•宽度
•出售它的商店
•在这些商店的价格
•随着时间的推移,这些商店的价格
•每次看价格时,其库存如何
这是数学:查询数据库表明,11家不同的零售商在销售同一款,同一颜色的这双鞋。让我们假设正在收集一年中,每个商店销售这款鞋每周的价格和库存数据。这意味着我们有这双鞋的572条记录。如果我们想要追踪春定价和库存信息,其中包括所有16个女鞋的尺寸,这个数字将是9152条。这只是针对一双鞋收集的数据,而在商店鞋柜里的每一双都会创造更多的数据点。
增加的复杂性,在高需求的时间和促销时间收集的价格数据往往比每周一次收集还要多。每日价格和库存信息将意味着一双鞋子有着4015个数据点。亚马逊网站将添加描述这些产品的信息和每个尺寸,以及其对应的不同的价格。因此一双鞋的数据迅速膨胀。想象一下,在这个时代,多达数十亿的产品信息,将其放到你的电子表格中。因此,传统的收集和分析系统将面临大数据的规模的严峻挑战。
5.不完美的大数据是无用的。
这个错误让人疯狂的,因为完美的尺度基本上是不可能的。例如,IT部门试图实现让10亿个具有520个数据点的产品保持一个让人梦寐以求的“五个九”的完美标准(99.999%)。那么在此数据集中,仍然会有5200万个不正确的数据点。
大数据很少达到这种完美的原因很多。许多大的数据来源是远远不够完善。亚马逊公司作为抓取大数据来源之一的网站,很可能在产品名称产生拼写错误。大数据也需要建立和组织其机器学习和算法;在产品数据的世界里,这些可以很容易地根据标题或名称错误将产品进行分类。
缺陷并不表明无用,但。一个有能力的数据分析师可以去除异常,并从大数据中拔出重要的见解,即使有很多缺陷。开发人员可以添加过滤器,减少进入你的系统的错误,,并制定庞大的数据集,这将提高数据质量随着时间的推移训练算法。其中大数据的一个最大好处是,可以弥补偶尔缺陷,让你获得更好的见解。
6.只有大公司需要大数据。
小型营销企业需要网站的流量和关键字搜索的数字。小型购物公司需要尽可能多地链接联盟计划的大型零售商的产品,按需交付服务,并需要可靠的位置数据。这只是那些需要大数据的小型公司的一小部分。
大型公司可能会产生更多的自己的大数据,但几乎每家公司都在现代经济使用上构建了大数据或应用程序。这意味着所有的企业可以获得访问见解和信息,并获得这些庞大的数据集提供的好处,而无需建立和管理创建和分析大数据所需的基础设施。
如今,无论企业规模如何,都不可回避地采用大数据业务。希望了解这些,可以消除误解和错觉。毕竟,我们生活在大数据世界中。如果管理人员更好地理解复杂性,陷阱和大数据的能力,他们会更好地运行业务,做出更好的决策。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
B+树作为数据库索引的核心数据结构,其高效的查询、插入、删除性能,离不开节点间指针的合理设计。在日常学习和数据库开发中,很 ...
2026-01-30在数据库开发中,UUID(通用唯一识别码)是生成唯一主键、唯一标识的常用方式,其标准格式包含4个短横线(如550e8400-e29b-41d4- ...
2026-01-30商业数据分析的价值落地,离不开标准化、系统化的总体流程作为支撑;而CDA(Certified Data Analyst)数据分析师,作为经过系统 ...
2026-01-30在数据分析、质量控制、科研实验等场景中,数据波动性(离散程度)的精准衡量是判断数据可靠性、稳定性的核心环节。标准差(Stan ...
2026-01-29在数据分析、质量检测、科研实验等领域,判断数据间是否存在本质差异是核心需求,而t检验、F检验是实现这一目标的经典统计方法。 ...
2026-01-29统计制图(数据可视化)是数据分析的核心呈现载体,它将抽象的数据转化为直观的图表、图形,让数据规律、业务差异与潜在问题一目 ...
2026-01-29箱线图(Box Plot)作为数据分布可视化的核心工具,能清晰呈现数据的中位数、四分位数、异常值等关键统计特征,广泛应用于数据分 ...
2026-01-28在回归分析、机器学习建模等数据分析场景中,多重共线性是高频数据问题——当多个自变量间存在较强的线性关联时,会导致模型系数 ...
2026-01-28数据分析的价值落地,离不开科学方法的支撑。六种核心分析方法——描述性分析、诊断性分析、预测性分析、规范性分析、对比分析、 ...
2026-01-28在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22