京公网安备 11010802034615号
经营许可证编号:京B2-20210330
告知5件大数据能不能做的事
引言
“大数据让我们变得更智能,而不是更聪明。”– Tim Leberecht
“大数据”一词早在20世纪40年代就出现了。全世界的公司都在竭尽全力地探索它的潜力。全球的科技巨头们都在大幅增加大数据技术的支出。这种趋势在主要行业的竞争者间还在加剧。
结果,根据调查公司IDC的预测, 大数据技术及服务直到2019年将以每年23%的速度增长.2019年在大数据上的支出将达到486亿美元。
这就是为啥大数据正在被全世界人们接受的原因。
公司从大数据身上看到了一线生机,让他们可以利用任何大小的数据。智能手机、GPS、传感器等在收集数据方面都发挥着作用。每一比特的数据都被收集起来然后处理成对我们(客户)有价值的信息。
在大数据不断给人们带来效益的时候,人们没有看到它 “不能” 做的事情, 也让我感到惊讶。但是我很快意识到,大数据不断的补充我们的商业直觉却绝不会成为替代品。
在本文中,我将过去7天的调查呈现给各位。我强烈的好奇心驱使我这样做。大数据对一个公司成功是至关重要的事实让我无法理解。大数据分析能胜任很多事情,但也有很多事情无能为力。
注意:我的想法并无完全,只是给各位提供一个思路。随便将你的想法留言在评论区中吧。
“大”数据的”小”练习
这个练习将为我们的将来做好准备。我们必须清楚要发生的事情还在后头。如果你在阅读这里,我请你考虑这样一个问题,你只需要写出(我已经共享了答案):
比如,如果我使用与大数据相关的平台得出这样一个逻辑结论,X是不可能的。我将排除与X有关的所有业务问题,能明白吗?
以下就是我的一个清单。如果你不同意下列中的观点,那么请证明一下吧!我会很乐意即使修改我的清单。让我们用一些商业直觉和分析的注解来开始解释我的一些思想。
80:20法则
这个法则说的是
“花80%的时间从过去的数据创建故事,20%的时间花在用现在的商业把这些故事串联起来”
说明:我相信没有跟商业直觉联系起来的分析见解都是没有用的。同意么?而且, 随着时间的流逝,以数据为驱动的部分在成指数级增长。 公司正在被数据的洪流所淹没。但这真的有用吗?不!
公司必须意识到,正确的将成功的商业分析与需要的商业视觉的比例是80:20。
如果我们建立一个故事用80%的时间分析过去的信息以求得对未来的预期,我们需要投入20%的时间思考这些信息对我们的业务有没有帮助。我们必须想到一些可以改变我们的将来和满足更广泛的业务目标的方法。这需要很强的商业理解力和良好的业务规则的知识。
这条法则中20%的成分是无可替代的。因此,人类的介入是为了解决这20%的问题,机器是不能满足的。即使是人工智能也不行。因为,人类的创造力是在无拘束的思考中诞生的。我相信创造力是机器无法带给我们的。我的清单正是受到了这个法则的启发。
5件大数据可以做到的事情
1.诊断分析 :我们每天都在做这个事情。机器更擅长做这个。当一个事件发生的时候,我们发现对寻找起因感兴趣。比如,设想在沙漠A挂起了沙暴,我们有沙漠A地区的各种参数:温度,气压,骆驼,道路,汽车等等。如果我们能将这些参数跟该地区的沙暴联系起来,如果我们知道一些因果关系,我们可能就会避免沙暴。想象下大数据的威力。
2.预测分析 :我们经常做这个事情。预测分析是根植在我们的DNA里的。比如,我们在全球有一个酒店连锁。现在我们需要找出那些酒店是没有达到销售目标的。如果我们知道的话我们就可以将努力集中在他们身上。这成为了预测分析的经典问题。
3.在未知元素间寻找关联 :我喜欢这部分分析。比方说销售雇员的数量跟销售额真的没有关系吗。你可能会减少一些雇员来看看是否真的对销售额没有损失。
4.规范的分析 :这是分析学的未来。比如说我们尝试着预测一个在大众目标的恐怖袭击然后安全的将人们转移的策略。做出这个预测,你需要做出在那个时候那个地点的游客人数,可能会被爆炸所影响到的地区等各种预测。
5.监控发生的事件 :行业中的大部分人都在做监控事件的工作。比如,你需要检测一个活动的反馈找到强烈和不强烈的部分。这些分析成为运营一个企业的关键
5件大数据不可以做到的事情
1.预测一个确定的未来 :使用机器学习的工具我们可以达到90%的精度。但是我们无法达到100%的准确。如果我们可以做到的话,我可以确切的告诉你谁才是目标以及每一次100%的响应率。但可惜的是这绝不会发生。
2.归咎于新的数据源 :在任何分析上,归责耗费了大部分时间。我相信这就是你的创造力和商业理解的来源。可能的是,你无法摆脱在你的分析中最无聊的部分。
3.找到一个商业问题的创新的解决方案 :创造力是人类永远的专利。没有机器可以找到问题的创新的解决方法。这是因为即使是人工智能也是由人们去编码的产物,创造力是不会从算法自己学习而来的。
4.找到定义不是很明确的问题的解决方法 :分析学最大的挑战就是从业务问题中形成一个分析问题模型。如果你能做得很好,你正在成为一个分析明星。这种角色是机器无法取代你的。比如,你的业务问题是管理损耗。除非你定义了响应者,时间窗口等,没有预测算法可以帮你。
5.数据管理/简化新数据源的数据 :随着数据量的增长,数据的管理正在成为一个难题。我们正在处理各种不同结构化的数据。比如,图表数据可能更适合网络分析但是对活动数据是没用的。这部分信息也是机器无法分析的。
最后
我相信这篇文章将发挥它的潜力如果你尝试了文章中的练习的话。试着从一个更全面的视角中思考,你会发现机器无法做到的事情。比如,我的初始点80:20法则指出机器将无法带来创造力。这个启发点帮我思考在分析的过程中那些部分是需要创造力的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27