
小议大数据的“能”与“不能” _数据分析师
当下,我们正处于数据爆炸的时代,全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化。大数据也是当下各行各业都在谈论的话题,某些数据分析师甚至扬言:如果可以实时、精确的捕捉一切数据,并且有足够高效的算法与储存设备,大数据可以分析并解决一切问题。窃以为,这样的说法太过绝对,现实情况并非如此。大数据并非是无所不能的。
笔者在这里试图从应用的角度分析一下电信行业大数据能做的和不能做的事情,而对于业务层面的能与不能。将留待后续文章再述。
大数据在面向客户层面能做的事情:
1、完善客户画像,洞察客户特征:拥有更全面的客户数据后,能更逼近客户的真实情况。大数据因其强大的数字记忆功能,在一定程度上能做到比客户自己还要更了解客户,具有读心术功能,这个容易理解;
2、发现行为模式的DNA,预测客户将发生的动作:法国数学家泊松说过:一旦我们承认人类行为是随机的,它突然之间就可以被预测了。《爆发》作者艾伯特拉斯洛巴拉巴西据此认为:依据泊松分布规律推断,人类行为93%是可以预测的。大数据的核心功能就是关联预测,比如识别离网客户在离网前的行为模式DNA,就能推测出所有在网客户在某个时期的离网率。类似的还有客户换机时间、偏好机型的预测等等。
3、识别客户需求偏好,开展个性化服务:还是围绕客户来说,大数据能发现客户的兴趣偏好、渠道偏好等,在规则引擎的实时触发作用下,相应的触点就能即时捕捉到机会,触发完成相应的动作,进行个性化的精准服务与营销,做到应时应景、正中客户下怀,这对于提高营销效率、客户感知肯定是大有裨益的,当然这里面还要注意让客户比较舒服的接受触点的服务,不要让客户觉得我们是在利用他们的隐私在做事情,这里面是讲究技巧的。
大数据在面向客户层面不能做的事情:
大数据的确能记录客户的各种属性特征、行为轨迹,这些数据也确实反映了客户的操作和使用行为,但是所思并不完全就是所想,客户的行为也不能完全反映其真实意图。
1、 大数据不能算出客户的创意和想象:大数据来源于现实,但是人类的许多想法并非来源于现实,创造性的思维与想象往往是天马行空、超越现实,因此《大数据时代》作者克托迈尔舍恩伯格直言:创意和想象,用大数据是算不出来的。
2、 大数据及时很智能也无法替代客户思维:大数据或许能帮助客户做出一些决策方案,但最终选择客户哪个方案、做出何种动作,最终决定权还是在客户自己手中。人类的思维过程、内心的真实想法是大数据不能够完全测算出来的。人类的思维、决策镶嵌在时间序列和社会背景之中,但数据是不能读懂这些背景的,也读不懂这些背景之后的一些潜规则,因而无法洞悉人类思维的浮现过程。即使是一部普通的小说,数据分析也无法解释其中的思路脉络,显见大数据是不能替代人类的思考的。
3、 大数据不能预测超越人类认知范围的事情:大数据的核心功能就是预测,但是大数据无法预测毫无先兆、超越人类认知极限的事情,这类事情通常被称为黑天鹅。大数据是基于历史数据来预测未来的,但当历史不可掌握时,大数据也是无计可施的;再者,大数据在采集、处理过程中难免被融入数据分析师的价值观和倾向性,这会让数据往往并非是原始客观的,会影响最后的分析结果,而真实的黑天鹅隐藏于无形之中,是很难被发现的;另外,著名思想、《黑天鹅:如何应对不可知的未来》的作者纳西姆塔勒布指出,随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多,这些相关关系中,有很多都是没有实际意义的,在真正解决问题时可能将人引入歧途。
4、 大数据无法描述客户的感情:大数据另外一个局限性在于它很难表现和描述客户的感情。大数据在处理人类情感、社会关系、前后关联等问题的时候,表现往往不尽如人意。大数据只能告诉我们客户在做什么,而不能告诉我们客户在做的时候是怎么想的、背景是怎样的,或者客户在做的时候有什么样的情绪波动。所以,大数据往往是不能直达客户心智空间,理解客户拥有何种价值观的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23