大道至简的数据体系构建方法论-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读大道至简的数据体系构建方法论

大道至简的数据体系构建方法论

2018-07-10

大道至简的数据体系构建方法论

由上至下地梳理数据指标体系

1.确定目标

这是第一个应该问自己的问题。花大力气做数据分析，最终为了什么呢？如果这都没想清楚，那数据体系肯定无从下手。

是想提高用户活跃度、增加用户、增加销量，还是别的什么目标？这么一想，好像我都想要。都想要没有问题，但是会让工作的边界无限蔓延，导致事情无法推进。所以，应该从最关心的那个目标/KPI入手。

那么，什么问题才是我们最需要关心的目标呢？

对于不同领域、不同阶段的公司和不同角色的用户而言，这个问题的答案都不一样：对于很多公司老板来说，利润就是他们最关心的目标；对于非售卖产品/服务的公司或政府而言，也许客户满意度是最关心的目标；对于交易平台类公司或早期电商公司而言，利润不是重点，交易量是最关心的目标。

最关心的目标搞定了，下面是不是可以解决都想要的问题了呢？并不是这样。大数据带来的最大一个误区就是数据量和字段数越多越好。但是，在真正解决具体业务问题时，我们一定是从大数据的全集中切出相关的一个子集来使用的。

对于单人而言，无论是老板还是执行层，同时关注的目标/KPI都不宜过多。同时看几十个KPI，想象一下也知道会很晕，且耗费时间。但是，对企业而言确实有很多KPI都是非常重要的。这该怎么办？可以分解到多人，即不同角色一起协作，每个角色关注自己的目标，所有角色合在一起是公司所有目标/KPI的全集。

假设老板最关注的目标是利润，利润=收入-成本，可以将这个目标分解为由销售总监来关注收入，运营总监来关注成本。当然，并不是说老板不能看收入，而是把常规性的关注目标锁定在一个可行的范围之内。

2.分解指标

目标确定了，下一步是分解出相关的指标。

针对目标，需要哪些指标来监控或分析能达成目标呢？比如利润，相关指标就是收入和成本，当然这太粗了，收入有哪几类，成本有哪几类，都应该考虑进去。比如对于零售行业的销售额，可以分解为客流量、进店率、购买率、客单价和复购率等。

所以，分解的方式有很多种，需要遵循MECE原则（完全穷举，相互独立）。

3.细化字段

针对指标的计算公式，涉及到哪些字段，分别在哪些库的哪些表里，是否需要数据清洗，清洗规则是什么等。

比如购买率，是通过公式“购买人数/进店人数”算出来的，购买人数又是对“客户ID”进行计数计算得出来的，这些指标涉及到的字段对应到数据库里哪张表的哪个字段，需要梳理清楚，这部分就需要IT人员或数据库管理员的介入和配合了。

4.非功能需求

上述第3步完成之后，我们其实已经算是梳理完了指标体系，可以落地了，但为了让最终形成的数据系统更加完备、友好、可用，还需要一些非功能需求的梳理。

UI：偏好什么样的展示风格，这点看着无关紧要，但实际上用户每天都会与数据系统打交道，美观、体验好的系统UI会让用户更加喜欢。

页面流：哪些相关指标摆放到同一个报告页面上，页面之间的层次关系如何，用户可以在页面之间如何跳转。

权限：谁能看哪些数据范围，谁能看哪些字段和指标，需要有统一的权限控制，避免出现数据安全问题。

ETL：数据从数据源同步到分析系统的频率如何，规则如何。

集成：是否需要在界面、预警消息等层面与其它系统进行集成。

性能：看不见摸不着，但是直接决定系统可用性。如果数据量大时需要几分钟甚至几十分钟才能看到结果，相信这个系统就不会有人愿意用了。

5.系统实施

上述4项完成之后，我们就形成了《数据运营系统需求文档/实施方案》，即可落地到数据运营系统里，然后，再根据报告页面数量、数据准备复杂度等确定工作量和时间计划。

二．由下至上地实施落地到BI系统

1.连接数据

根据需求文档/实施方案，一步步进行系统搭建工作。这个系统有的企业称之为大数据平台，有的企业称之为BI系统。大数据平台的范畴会更广一些，但对企业数据化运营而言，BI一定是核心构成。

那么，无论是开发还是基于像永洪科技一样的第三方工具快速实施，系统搭建的第一步都是连接各个数据源，打通和各个数据源之间的通路。

在企业里，数据环境往往是异构的，数据源可能包括数据库、Hadoop系列平台、Excel文件、日志文件、NoSQL数据库、第三方接口等，需要对每种数据源都有快速友好的对接方式。

最终，我们在系统里能看到所需要的各个数据源中所有的表格和字段。

2.数据处理

数据源里的数据往往是有或多或少的不规范性存在的，比如有重复记录，比如有遗漏的空值，比如有明显不合理的异常值（比如有2020年的成交订单），还可能有同一个事物在系统中存在多个名称的情况。

这些数据如果不做一些处理或称之为清洗的工作，是会对分析的准确性产生很大影响的，所以需要做些预处理。这个过程往往是最耗时、最枯燥的，但也是十分重要的。

作者提醒：这个环节的问题将在下一篇《大道至简的数据治理方法_论》文章中再深入探讨。

3.数据建模

数据处理好了，下一步就该做数据建模了。

一提到建模，非技术背景的用户就生畏，觉得高深不可理解。其实建出的模是个什么东西呢？简单来讲，把多张表关联到一起，就是一个数据模型。

比如，公司要做绩效分析，需要员工的工龄、学历、项目数、项目金额、项目利润率等指标，其中工龄、学历在个人信息表里，项目数、项目金额在项目表里，项目利润率在财务表里，这三张表有个共同字段“员工编号”，通过这个字段把这三张表关联起来，这就是一个数据模型，一个绩效分析主题的数据模型。

4.制作数据报告

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

字段大数据数据建模 ETL SQL Hadoop 数据清洗数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇一位土博士，作为过来人谈SSCI投稿经验

下一篇Python中使用select模块实现非阻塞的IO

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

大道至简的数据体系构建方法论

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载