京公网安备 11010802034615号
经营许可证编号:京B2-20210330
关联分析故事:从数据到信息到决策
俗话说,忘记历史就是背叛自己,今天这篇用此做开场再合适不过。
这一篇将根据一个虚拟的故事,来介绍如何通过历史数据来帮助一个销售人员发现规律信息从而辅助他来做一些决策信息。
本文的主角是Tim,Tim在一个销售部门,部门最近决定做新一轮销售计划,然后根据计划结束时,各个销售人员的销售业绩来进行KPI考核。
Tim的部门在确定了销售任务后,其它人很快的投入到店面的销售工作中去,而Tim则跑到了公司的IT维护部门,向IT 部门要了一份历史的客户数据。
此时已经有人在责怪Tim,说你一个销售不去外面跑业务,怎么跑到IT部门"不务正业"来了,而且,专门要以前的客户数据,居然不去不关心新客户。
其实,Tim还有一个搞IT的朋友,James,他是一位数据分析师,在零售行业也有一定的经验。Tim的第一个想法就是找 James给些建议。
平时两个人聊天的过程中,James给Tim讲了无数多次关于商业智能的知识。虽然Tim是搞销售的,但是受到James的经常灌输,自己对里面的知识也有了一些印象,比如,数据挖掘,当然这个概念对于搞销售的Tim来说简直就是天书,正所谓隔行如隔山,但是有一点他非常理解,那么就是:从数据到信息,也就是说,从数据中获取信息。
于是,销售任务一开始,Tim就跑到了IT部门要了这样一份数据,来看看James到底能从这里头得到什么样的信息,从而能帮助Tim更准确的知道因该给什么样的人推荐产品才比较靠谱。
James拿到Tim的数据之后,大概的浏览了一下:
数据的具体结构如下:
从这份数据中,James看到,里面包含了客户的性别,婚姻状况,年收入以及家庭相关的和教育等基本信息。其中最后一列关键信息,就是客户是否购买过产品。如果购买过就记为1,否则就记为0。
James拿过来这个Excel文件,首先做了一个关键影响因素分析。
根据这个工具,首先指定关注的列,就是客户是否购买了产品的标记:
这里选择BikeBuyer。
然后再点击Choose Columns to be used for analysis。
这里,James根据经验指定了需要分析的列。很明显,DataFirstPPurchase是没什么用的,James果断把这列剔除掉以免影响到分析的准确性。
然后系统会根据James的设置自动处理这些历史数据。
处理完毕后,系统生成了一份报告:
于是,James给Tim发了一封邮件:
Dear Tim,
我分析了你提供给我的数据,并且从数据里得到几点规则。
首先,关注没有车,有一个小孩,以及来自Pacific,还有平时上班路程不是太远的用户,他们很有可能是你的潜在客户。
此外,对于有两台车的客户,就不要去推荐了,从你们的业务记录来看这类客户购买产品的可能性实在不大。
还有小孩数量比较多,上班距离太远,超过65岁的成为你客户的可能性也很小。
以上。
Best wishes!
James.
某年某月某日
Tim收到这封邮件之后非常高兴,因为这样一下子就可以让他判断出一个新客户是否会购买产品,从而不会在本身就不会有购买需求这类客户身上花费太多时间,这样就能把精力投入到更多的目标客户中去。
不过很快,Tim又有了一个问题,就是单凭这样的判断太笼统,容易丢失部分极特殊的客户,所以Tim希望能自己根据客户的情况做更详细的判断。
收到Tim的这个请求之后,James在Excel中建立了一个挖掘计算器。
首先,点击预测计算工具。
在工具中设置需要预测的列。
点击Run,Excel通过SQL Server的分析服务开始处理数据。
数据处理完毕后,在Excel中生成了几张报告:
在第一份报告中,James得到了列表,里面标识了每个属性对一个未知客户会购买产品的影响程度。
在另外一份报告中,根据这份分析数据,包含一个动态的操作表格。
每一个属性的值都变成了一个下拉列表,各个属性的Impact影响值加在一起最后得出一个分数,这个分数如果达到一定的高度,那么就表明这个客户很有可能会购买产品。
于是,James把这个Excel文件发给了Tim,这样Tim就可以根据收集到的客户信息对应选择里面的项,然后通过计算知道用户是否是潜在客户。
这个文件帮了Tim不少的忙,也准确的识别了一些客户。但Tim也往往抱怨,在出去跑业务的过程中,电脑不是总带在身边,所以往往很难及时的做出判断。
James知道Tim的这个烦恼后,告诉他,你把第三份分析报告中的表格打印出来就可以了。
这个表格把每个属性的值都列了出来,并且它们对应的分数也在后面。Tim打印出来后,可以自己手动在上面做计算。
算好总分后,对比下面的分数,也就是说分数最起码要达到601才有可能是一个潜在客户。
于是,对于IT系统的操作不是很熟悉的Tim就可以每次对着这个单子来对新客户作出潜在客户的判断。
在这个故事里,James并没有用到什么太复杂的数据,通篇他只在用一个软件,就是Excel,Excel从2007版本开始通过SQL Server的功能扩充可以实现简单的数据挖掘功能,它通过SQL Server Analysis Services分析服务来生成临时的挖掘模型,通过样本数据以及挖掘模型和算法来发现数据中存在的一些规律,相关性等信息。
通过Excel对SQL Server数据挖掘功能的封装,使得用户即使不清楚数据挖掘的具体算法也可以实现数据挖掘的功能从而做挖掘预测分析来辅助决策,甚至都不需要用户了解什么样的挖掘模型算法适合解决什么样的问题,只需要关注Excel里所带的表分析工具就可以做简单的预测分析。
总之,数据挖掘,不是已不是数据分析师们的专属,有了Excel,你也可以。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22