
数据处理流程和数据分析方法
大数据分析这件事用一种非技术的角度来看的话,就可以分成金字塔,自底向上的是三个部分,第一个部分是数据采集,第二个部分是数据建模,第三个部分是数据分析,我们来分别看一下。
【数据采集】
首先来说一下数据采集,我在百度干了有七年是数据相关的事情。我最大的心得——数据这个事情如果想要更好,最重要的就是数据源,数据源这个整好了之后,后面的事情都很轻松。
用一个好的查询引擎、一个慢的查询引擎无非是时间上可能消耗不大一样,但是数据源如果是差的话,后面用再复杂的算法可能都解决不了这个问题,可能都是很难得到正确的结论。
我觉得好的数据处理流程有两个基本的原则,一个是全,一个是细。
● 全:就是说我们要拿多种数据源,不能说只拿一个客户端的数据源,服务端的数据源没有拿,数据库的数据源没有拿,做分析的时候没有这些数据你可能是搞歪了。另外,大数据里面讲的是全量,而不是抽样。不能说只抽了某些省的数据,然后就开始说全国是怎么样。可能有些省非常特殊,比如新疆、西藏这些地方它客户端跟内地可能有很大差异的。
● 细:其实就是强调多维度,在采集数据的时候尽量把每一个的维度、属性、字段都给它采集过来。比如:像 where、who、how 这些东西给它替补下来,后面分析的时候就跳不出这些能够所选的这个维度,而不是说开始的时候也围着需求。根据这个需求确定了产生某些数据,到了后面真正有一个新的需求来的时候,又要采集新的数据,这个时候整个迭代周期就会慢很多,效率就会差很多,尽量从源头抓的数据去做好采集。
【数据建模】
有了数据之后,就要对数据进行加工,不能把原始的数据直接报告给上面的业务分析人员,它可能本身是杂乱的,没有经过很好的逻辑的。
这里就牵扯到数据建框,首先,提一个概念就是数据模型。许多人可能对数据模型这个词产生一种畏惧感,觉得模型这个东西是什么高深的东西,很复杂,但其实这个事情非常简单。
我春节期间在家干过一件事情,我自己家里面家谱在文革的时候被烧教了,后来家里的长辈说一定要把家谱这些东西给存档一下,因为我会电脑,就帮着用电脑去理了一下这些家族的数据这些关系,整个族谱这个信息。
我们现实是一个个的人,家谱里面的人,通过一个树型的结构,还有它们之间数据关系,就能把现实实体的东西用几个简单图给表示出来,这里就是一个数据模型。
数据模型就是对现实世界的一个抽象化的数据的表示。我们这些创业公司经常是这么一个情况,我们现在这种业务,一般前端做一个请求,然后对请求经过处理,再更新到数据库里面去,数据库里面建了一系列的数据表,数据表之间都是很多的依赖关系。
比如,就像我图片里面展示的这样,这些表一个业务项发展差不多一年以上它可能就牵扯到几十张甚至上百张数据表,然后把这个表直接提供给业务分析人员去使用,理解起来难度是非常大的。
这个数据模型是用于满足你正常的业务运转,为产品正常的运行而建的一个数据模型。但是,它并不是一个针对分析人员使用的模型。如果,非要把它用于数据分析那就带来了很多问题。比如:它理解起来非常麻烦。
另外,数据分析很依赖表之间的这种格子,比如:某一天我们为了提升性能,对某一表进行了拆分,或者加了字段、删了某个字短,这个调整都会影响到你分析的逻辑。
这里,最好要针对分析的需求对数据重新进行解码,它内容可能是一致的,但是我们的组织方式改变了一下。就拿用户行为这块数据来说,就可以对它进行一个抽象,然后重新把它作为一个判断表。
用户在产品上进行的一系列的操作,比如浏览一个商品,然后谁浏览的,什么时间浏览的,他用的什么操作系统,用的什么浏览器版本,还有他这个操作看了什么商品,这个商品的一些属性是什么,这个东西都给它进行了一个很好的抽象。这种抽样的很大的好处很容易理解,看过去一眼就知道这表是什么,对分析来说也更加方便。
在数据分析方,特别是针对用户行为分析方面,目前比较有效的一个模型就是多维数据模型,在线分析处理这个模型,它里面有这个关键的概念,一个是维度,一个是指标。
维度比如城市,然后北京、上海这些一个维度,维度西面一些属性,然后操作系统,还有 IOS、安卓这些就是一些维度,然后维度里面的属性。
通过维度交叉,就可以看一些指标问题,比如用户量、销售额,这些就是指标。比如,通过这个模型就可以看来自北京,使用 IOS 的,他们的整体销售额是怎么样的。
这里只是举了两个维度,可能还有很多个维度。总之,通过维度组合就可以看一些指标的数,大家可以回忆一下,大家常用的这些业务的数据分析需求是不是许多都能通过这种简单的模式给抽样出来。
四、数据分析方法
接下来看一下互联网产品采用的数据分析方法。
对于互联网产品常用的用户消费分析来说,有四种:
(1) 第一种是多维事件的分析,分析维度之间的组合、关系。
(2)第二种是漏斗分析,对于电商、订单相关的这种行为的产品来说非常重要,要看不同的渠道转化这些东西。
(3)第三种留存分析,用户来了之后我们希望他不断的来,不断的进行购买,这就是留存。
(4)第四种回访,回访是留存的一种特别的形式,可以看他一段时间内访问的频次,或者访问的时间段的情况
【方法 1:多维事件分析法】
首先来看多维事件的分析,这块常见的运营、产品改进这种效果分析。其实,大部分情况都是能用多维事件分析,然后对它进行一个数据上的统计。
1. 【三个关键概念】
这里面其实就是由三个关键的概念,一个就是事件,一个是维度,一个是指标组成。
l 事件就是说任何一个互联网产品,都可以把它抽象成一系列事件,比如针对电商产品来说,可抽象到提交、订单、注册、收到商品一系列事件用户行为。
l 每一个事件里面都包括一系列属性。比如,他用操作系统版本是否连 wifi;比如,订单相关的运费,订单总价这些东西,或者用户的一些职能属性,这些就是一系列维度。
l 基于这些维度看一些指标的情况。比如,对于提交订单来说,可能是他总提交订单的次数做成一个指标,提交订单的人数是一个指标,平均的人均次数这也是一个指标;订单的总和、总价这些也是一个指标,运费这也是一个指标,统计一个数后就能把它抽样成一个指标。
2. 【多维分析的价值】
来看一个例子,看看多维分析它的价值。
比如,对于订单支付这个事件来说,针对整个总的成交额这条曲线,按照时间的曲线会发现它一路在下跌。但下跌的时候,不能眼睁睁的看着它,一定要分析原因。
怎么分析这个原因呢?常用的方式就是对维度进行一个拆解,可以按照某些维度进行拆分,比如我们按照地域,或者按照渠道,或者按照其他一些方式去拆开,按照年龄段、按照性别去拆开,看这些数据到底是不是整体在下跌,还是说某一类数据在下跌。
这是一个假想的例子——按照支付方式进行拆开之后,支付方式有三种,有用支付宝、阿里 PAY,或者用微信支付,或者用银行看内的支付这三种方式。
通过数据可以看到支付宝、银行支付基本上是一个沉稳的一个状态。但是,如果看微信支付,会发现从最开始最多,一路下跌到非常少,通过这个分析就知道微信这种支付方式,肯定存在某些问题。
比如:是不是升级了这个接口或者微信本身出了什么问题,导致了它量下降下去了?
【方法 2:漏斗分析】
漏斗分析会看,因为数据,一个用户从做第一步操作到后面每一步操作,可能是一个杂的过程。
通过这个漏斗,就能分析一步步的转化情况,然后每一步都有流失,可以分析不同的渠道其转化情况如何。比如,打广告的时候发现来自百度的用户漏斗转化效果好,就可能在广告投放上就在百度上多投一些。
【方法 3:留存分析】
比如,搞一个地推活动,然后来了一批注册用户,接下来看它的关键行为上面操作的特征,比如当天它有操作,第二天有多少人会关键操作,第 N 天有多少操作,这就是看它留下来这个情况。
【方法 4:回访分析】
回访就是看进行某个行为的一些中度特征,如对于购买黄金这个行为来说,在一周之内至少有一天购买黄金的人有多少人,至少有两天的有多少人,至少有 7 天的有多少人,或者说购买多少次数这么一个分布,就是回访回购这方面的分析。
上面说的四种分析结合起来去使用,对一个产品的数据支撑、数据驱动的这种深度就要比只是看一个宏观的访问量或者活跃用户数就要深入很多。
五、运营分析实践
下面结合个人在运营和分析方面的实践,给大家分享一下。
【案例 1:UGC 产品】
首先,来看 UGC 产品的数据分析的例子。可能会分析它的访问量是多少,新增用户数是多少,获得用户数多少,发帖量、减少量。
诸如贴吧、百度知道,还有知乎都属于这一类的产品。对于这样一个产品,会有很多数据指标,可以从某一个角度去观察这个产品的情况。那么,问题就来了——这么多的指标,到底要关注什么?不同的阶段应该关注什么指标?这里,就牵扯到一个本身指标的处理,还有关键指标的问题。
【案例 2:流失用户召回】
这种形式可能对其他产品就很有效,但是对我们这个产品来说,因为我们这是一个相对来说目标比较明确并且比较小众一点的差别,所以这个投放的效果可能就没那么明显。
在今年元旦的时候,因为之前申请试用我们那个产品已经有很多人,但是这里面有一万人我们给他发了帐号他也并没有回来,我们过年给大家拜拜年,然后去汇报一下进展看能不能把他们捞过来一部分。
这是元旦的时候我们产品的整体用户情况,到了元旦为止,9月25号发布差不多两三个月时间,那个时候差不多有 1490 个人申请试用了我们这个产品。但是,真正试用的有 724 个,差不多有一半,另外一半就跑了,就流失了。
我们就想把这部分人抽出来给他们进行一个招回活动,这里面流失用户我们就可以把列表导出来,这是我们自己的产品就有这样的功能。有人可能疑惑我们怎么拿到用户的这些信息呢?
这些不至于添加,因为我们申请试用的时候就让他填一下姓名、联系方式,还有他的公司这些信息。对于填邮箱的我们就给发邮件的,对于发手机号的我们就给他发短信,我们分析这两种渠道带来的效果。
先说总体,总体我们发了 716 个人,这里面比前面少了一点,我把一些不靠谱的这些信息人工给它干掉了。接下来,看看真正有 35 个人去体验了这个产品,然后 35 个人里面有 4 个人申请接入数据。
因为我们在产品上面做了一个小的改进,在测试环境上面,对于那些测试环境本身是一些数据他玩一玩,玩了可能感兴趣之后就会试一下自己的真实数据。这个时候,我们上来有一个链接引导他们去申请接入自己的数据,走到这一步之后就更可能转化成我们的正式客户。
这两种方式转化效果我们其实也很关心,招回的效果怎么样,我们看下面用红框表示出来,邮件发了 394 封。最终有 32 个人真正过来试用了,电话手机号322 封,跟邮件差不多,但只有 3 个过来,也就是说两种效果差了 8 倍。
这其实也提醒大家,短信这种方式可能许多人看短信的比较少。当然,另一方面跟我们自己产品特征有关系,我们这个产品是一个 PC 上用起来更方便的一个产品。许多人可能在手机上看到这个链接也不方便点开,点开之后输入帐号也麻烦一点。所以,导致这个效果比较差。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
探秘 z-score:数据分析中的标准化利器 在数据的海洋中,面对形态各异、尺度不同的数据,如何找到一个通用的标准来衡量数据 ...
2025-06-26Excel 中为不同柱形设置独立背景(按数据分区)的方法详解 在数据分析与可视化呈现过程中,Excel 柱形图是展示数据的常用工 ...
2025-06-26CDA 数据分析师会被 AI 取代吗? 在当今数字化时代,数据的重要性日益凸显,数据分析师成为了众多企业不可或缺的角色 ...
2025-06-26CDA 数据分析师证书考取全攻略 在数字化浪潮汹涌的当下,数据已成为企业乃至整个社会发展的核心驱动力。数据分析师作 ...
2025-06-25人工智能在数据分析的应用场景 在数字化浪潮席卷全球的当下,数据以前所未有的速度增长,传统的数据分析方法逐渐难以满足海 ...
2025-06-25评估模型预测为正时的准确性 在机器学习与数据科学领域,模型预测的准确性是衡量其性能优劣的核心指标。尤其是当模型预测结 ...
2025-06-25CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-06-24金融行业的大数据变革:五大应用案例深度解析 在数字化浪潮中,金融行业正经历着深刻的变革,大数据技术的广泛应用 ...
2025-06-24Power Query 中实现移动加权平均的详细指南 在数据分析和处理中,移动加权平均是一种非常有用的计算方法,它能够根据不同数据 ...
2025-06-24数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23CDA 一级:开启数据分析师职业大门的钥匙 在数字化浪潮席卷全球的今天,数据已成为企业发展和决策的核心驱动力,数据分析师 ...
2025-06-23透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19CDA 数据分析能力与 AI 的一体化发展关系:重塑数据驱动未来 在数字化浪潮奔涌的当下,数据已然成为企业乃至整个社会发展进 ...
2025-06-19CDA 干货分享:统计学的应用 在数据驱动业务发展的时代浪潮中,统计学作为数据分析的核心基石,发挥着无可替代的关键作用。 ...
2025-06-18CDA 精益业务数据分析:解锁企业增长新密码 在数字化浪潮席卷全球的当下,数据已然成为企业最具价值的资产之一。如何精准地 ...
2025-06-18