
当大数据真的变得更好时_数据分析师
以往的经验告诉我们,充分发挥扩展优势会带来更大的分析价值。但是大数据[注]并不是一把万能的锤子,而每一个问题也不是一个靠锤子就可以解决的钉子。
许多人认为大数据意味着越大越好。人们也常常从各种哲学视角来诠释“越大越好”这一问题。对此我将这些角度归纳为:
信仰:是指容量更大、速度更快和种类更丰富的数据总会带来更多洞察力,而这正是大数据分析的核心价值。如果我们无法发现这些洞察力,那是由于我们没有充分认真地尝试,或是我们的灵活程度还不够,或者是我们没有使用正确的工具和解决方案。
偶像:是指数据的庞大容量本身就是有其价值的,与我们是否能够从中获得特殊的洞察力无关。如果我们仅凭其所支持的特定商业应用来评估它们的效用,那么在这方面,我们是与数据科学家们当前的需求是不一致的,数据科学家们的需求是将数据不加分别地存储到数据湖中,以支持今后的探索工作。
负担:是指数据的庞大容量未必是好事或坏事,但是一个无法改变的事实是,它们会对现有数据库的存储和处理能力带来极大的压力,并因此让(Hadoop等)新平台成为必需品。如果我们不能跟上这些新数据增长的步伐,那么核心的业务需求将被迫转向新型数据库。
机遇:在我看来,这是一个处理大数据的正确解决方案。随着数据规模上升至新的层次,流动的速度更快,数据的来源和格式不断增长,这一解决方案将重点放在了更为高效地获取前所未有的洞察力方面。它没将大数据作为一种信仰或偶像,因为它知道即便较小的数据规模也能够持续获得许多不同的洞察力。它也没有将数据的规模视为一种负担,而是视为一种挑战,这种挑战能够通过新的数据库平台、工具和实践加以有效应对。
2013年,我在博客中曾就大数据的核心使用案例展开过讨论,但当时只涉及到如上方程式中的“机遇”部分。晚些时候,我发现大数据中“大”这一核心价值源自于能否用增加的内容揭示出所增加的背景环境。在你分析数据以探查其完整意义时,背景环境自然是越多越好。同样的,当你尝试着在自己的问题范畴中识别出所有的变量、关系、模式以找到更好的解决方案时,内容也是越多越好。总之,越来越多的内容加上越来越多的背景环境,通常会导致数据也变得越来越多。
大数据的另一个价值在于,它们能够纠正那些小规模数据所产生的错误。曾经有观察过该问题的人说过,对于数据科学家而言,在训练集中数据偏少意味着他们更容易受到多个模型风险的影响。首先,数据规模偏小可能会导致用户忽视关键的预测性变量。同时,用户选择没有代表性的样本导致模型出现偏差的几率变大。此外,用户可能会找到一些虚假关系,如果用户拥有能够揭示实际发挥作用的基本关系的完整数据,那么他们就能够识别出这些虚假关系。
规模非常重要
所有的人都认为,一些数据类型和使用案例比能够带来新洞察力的数据更有帮助。
我近期偶然看到了一篇名为《大数据的预测模式:越大就越好吗?》文章,文章对数据的一个特定范畴——稀少的细分行为数据进行了详细阐述。在这方面,数据规模通常能够提升预测成绩。文章的作者Junqué de Fortuny、Martens和Provost称:“这类数据集的一个重要问题是它们通常都比较稀少。对于任何给定的实例,绝大多数特征都没有价值,或是价值没有表现出来。”
最值得关注的是(作者通过引述丰富的研究来支持他们的论点)(+微信关注网络世界),这类数据是许多以客户分析为重点的大数据应用的核心。社交媒体行为数据、Web浏览行为数据、移动行为数据、广告反应行为数据、自然语言行为数据都属于这类数据。
作者认为,“实际上,对于大多数预测分析型的商业应用,例如金融业和电信业的定向市场营销、信用评分、损耗管理等应用,用于预测分析的数据都非常相似。这些产品的特点都集中于个人的背景特征、地域特征和心理特征,以及诸如优先购买行为等一些通过统计总结出来的特定行为。”
“更大的行为数据集往往会更好”的关键原因非常简单,作者认为“没有大量的数据,一些显著的行为可能就无法被有效地观察到。”这是因为在零散的数据集中,行为被记录的人可能只会展示次数有限的行为。但是当你放眼整个人群时,每一种特定类型的行为你可能会观察到至少一次,或者在特定的环境中观察到多次。如果数据偏少,那么所观察的目标和观察到的行为特征也就会偏少,这将导致你会忽略许多东西。
预测模型所依靠的正是源行为数据集的丰富性。为了在未来的更多场景中预测更为精准,数据规模通常是越大越好。
当越大等同于越模糊时
尽管如此,该文的作者也提到了一些场景。在这些场景中,越大越好的假设不成立,那么我们就不得不使用特定行为特征的预测价值。这时候,权衡取舍就成为了预测行为模型的基础。
预测模式中每一个增加的行为特征,应该与所做的预测充分地联系起来,以提升模型的学习收益和预测能力,克服不断拉大的差异,即过度拟合和预测错误,因为这通常会产生更大的特征集。正如该文章作者所说的那样,“大量不相关的特征只是增加了差异和过拟合的机率,而没有相应地提升学习到更好模型的机率。”
显然当“大”妨碍到了获取预测性洞察力时,越大并非越好。用户不希望自己的大数据分析努力成为数据规模扩张的牺牲品。数据科学家也必须充分了解应该何时调整数据模型的大小,以适应手中的分析任务。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01