京公网安备 11010802034615号
经营许可证编号:京B2-20210330
表象层,就像汽车仪表盘,实时告诉你发生了什么,并适时做个警报提示等等,是what。分析师要做的事情就是搭建指标体系,进行各种维度的统计分析。
本质层,像诊断仪,不再停留在观察肉眼可见的表面症状,而是去检测身体内部的问题,这个层面要揭露现象背后的动因,找到规律,是why。主要做的事情就是进行个案分析获得需求动机层面的认知,然后对个体进行聚类获得全面的洞察。
抽象层,是特殊到一般的过程,对业务问题进行抽象,用模型去刻画业务问题,是how。这个层面做的事情就是把问题映射到模型,然后再用模型去做预测,减少不确定性。其产出主要是分类(标签)和排序(评分)。
现实层,是一般到特殊的过程,将抽象的模型套用到现实中来,告诉大家如何去行动,是when、where、who and whom。就像航标,要时刻为业务保驾护航,指导业务的行动。其产出主要是规则和短名单。
在明确数据分析的层次后,要想从洞察到行动,需要做到四个层次的穿透和每个层次的深入。首先,分析要能够穿透各个层次,只有上下贯通,数据分析的价值才能立竿见影。其次,在分析的每个层次上要做的深入。
一、在表象层,看数据要深入。主要体现在两个方面:
1. 从“点“到”线面体“,从看一个点的数据,到看线,看面,看体。
一般来讲,想看数据的人潜意识里是要成“体”的数据的,只是沟通过程中变成了“点”的需求,因为“点”简单容易讲明白,但是,这次给不了“体”的数据,下次还会围绕“体”的数据提各种“点”的需求,这个时候我们需要延伸一下,提前想需求方之所想,就不用来回往复了。
2. 关注数据之间的逻辑关系
这方面最值得借鉴的就是平衡计分卡了,平衡计分卡从数据指标的角度去看,就是一套带有因果关系的指标体系。
平衡计分卡通过Strategy Map把策略说清楚讲明白,通过KPI进行有效的衡量,被评价为“透视营运因果关系的绩效驱动器”(政大会计系教授 吴安妮),“将策略化为具体行动的翻译机”(台大会计系教授 杜荣瑞)。
平衡计分卡对我们的启发是,人人可以梳理出一套和自己业务相关的有逻辑关系的数据指标体系,通过它实现聚焦和协同。
二、在本质层,深入理解业务模式,并跳出既有的思维模式,建立新的心智模型。
比如我们看淘宝,淘宝业务的本质是什么呢?其中一个答案是复杂系统。
大家都知道,淘宝是一个生态系统,淘宝是一个典型的由买家、卖家、ISV、淘女郎等各种物种构成的复杂系统,阿里巴巴是一个更大的复杂系统。
复杂系统对我们的启发是,关注个体(系统内部买家卖家等参与者)的同时,注意分析个体在群体中位置和角色,分析群体的发展潜力、演化规律、竞争度、成熟度等,分析群体和群体之间关系。同时,对应的抽象层建模的方法也要与之适配。
三、在抽象层,微观上构建更加抽象的特征,宏观上构建更加抽象的模型。
1. 在既有的分析和挖掘框架下,构建更加抽象的特征(也可以理解成维度、指标)。
这个可以类比现在最火的Deep Learning技术,如果对一个图片进行识别,即使你获取的是像素信息,深度学习可以自动学习出像素背后的形状、物体的特征等中间知识,越上层的特征越接近真相。
1、对我们的启示就是,在交易笔数交易金额这种“像素级别”特征(指标)的基础上,可以考虑是否交易笔数连续上升、营销活动交易占比等带有业务含义,更加抽象同时接近业务的特征(指标)。用抽象的特征去建模可以提升模型的效果,用抽象的指标去分析可以更贴近业务需求。
2.宏观方面,可以用更加抽象的方式对业务进行建模
在前面提到淘宝是复杂系统,我们也可以对复杂系统进行建模。做些适当的简化,对淘宝做一个高度抽象,那就是一个字“网”。节点是买家、卖家等物种,边就是购买、收藏、喜欢等行为产生的关系。整个淘宝就是一张大网。
图注: 不同的颜色表示不同的细分互动市场,点代表的是店铺或者会员,连线表示会员是店铺的熟客,点的大小对店铺而言代表店铺的熟客数,对会员而言代表常购买的店铺数,越接近图的中心越表示大众化的需求,越接近图的边缘越体现需求的个性化。
建立这张大网之后,我们就可以做深入的分析,比如市场细分,个性化推荐等等。
四、在现实层,要深入到业务中去,不断提升对相关业务的认知能力。
心态上不要自我设限,分析无边界,分析师要主动参与到业务模式、产品形态的规划和设计去。要了解业务,在此基础上灵活运用模型的产出,比如:一个风险控制策 略,假如已经有一个风险事件打分模型对风险事件打分排序,分析师可以根据业务需求灵活设计模型的使用策略,例如,对于风险得分最高的时间,机器自动隔离, 风险得分偏高的,用机器+人工审核的半自动方式进行隔离。模型是死的,活用靠人。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23