
数据应用因小而美
从去年年底,我开始思考怎么从“用数据”转变为“养数据”(即数据运营转变为运营数据),这一段时间我特别为收集什么样的数据而烦恼(more data, more problem)。而且,我也曾经想做一个特别大的适合多数人使用的数据应用出来(虚火上升),可是后来发现这在数据应用的起步阶段几乎是不可能的,一是找到可以解决大部分人需求的数据应用不容易,二是支付宝的数据非常丰富,需要考虑的因素很多,因素之间的联系又很复杂。
所以,我总结,当做数据应用的时候,数据就是等于原材料,当原材料一直处于变化的情况下,做出来的产品很容易出问题。体会数据和应用的关系之后,我最后决定从小角度切入,先做小应用出来(很好的瞄准器)。
这里说的“小”指的是应用的目标很具体。打个比方来说,对于一款数据应用,如果我的目的是分辨两种决策谁更好,差异在哪里,是很具体的问题。但如果我的目标是想知道如何让公司赢利,就是一个空泛的目标。
还请注意,“小”不是指数据量。许多人在没有获取足够数据,并且缺乏对数据理解的情况下做判断,其实是在享受自己的无知。
经过一番周折之后,也是按照小角度切入的想法设计数据应用,小角度切入设计产品可以做到具体和快速,而且可以避免因原材料的变化而导致的问题。
把数据放进“框”之中
此外,还不得不说到一个话题,在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,要把数据放在一个“数据框架”(情景)里面看才能看出问题。
为了把问题说得很明白,这里我拿前阵子一家电商公司找我讨论的问题举例子。这里不太方便公开这家公司的名称,暂以A公司代替。
A问我,要不要撤去导航网站的广告?因为怀疑许多老客户是从导航网站访问官网,而不是直接访问官网。
把这个问题说得再直白点,就是要弄清楚在导航做广告与A公司的业务关系。
那么,接下来要观察用什么“数据框架”,有助于做决策?
一、A公司当前的投入产出比
1、明确导航网站引进来的新、老用户占比如何?
2、引入的新、老用户的投入产出比和转化率如何?
3、推断撤去导航网站,对流失新老用户的影响?
二、与竞争对手的博弈
有一个问题可能会忽略,那就是你不做导航网站广告,你的对手就会立马进来。做数据框架的时候,要特别注意框架不是静态的,而是博弈的,需要把竞争对手因素算进来。
三、考虑时间因素
建立框时要考虑时间因素:
1、 用现在、过去和未来的眼光来审视导航网站,看看导航的质量是不是越来越好
2、 需要注意的是时间有延迟性,引进来的流量会有一些延迟,在两三个月后才能知道新用户的价值(life time value)。
总之,“数据框架”是商业分析师的灵魂所在,从框中找寻问题的关键因素及答案。不同的问题有不同的框,不能完全在此全部阐述。
数据是越多越好吗?
过去,有一个问题一直令我很困惑,现在的企业获取数据很容易,并且数据的增长速度非常之快,那么对于公司来说,到底要收集什么数据呢?收集多少数据?收集数据的边界在哪里?
后来在美国遇到Patil,他认为过去收集数据很难,而现在获取数据资源变得更容易。但是如果收集数据的出发点,不是为了解决问题,那么收集再多的数据有什么意思呢?
可是许多公司还有一个疑问是,现在收集数据不难,成本也不高,为什么不先收集数据再说呢?等以后需要数据来解决问题时再拿出来用也可以。Patil的答案我也很认同,他劝大家千万别这么想,用这样的理念来设计数据应用肯定会失败的。数据是没有边际的,我为此也痛苦了好一段日子。比如收集一个人的生日,可以精确到几分几秒,但这么精确的数据有什么应用,能产生什么价值呢?
事实上,数据是有生命周期的,比如从中国身份证号码是可以推断出性别的,但是过几年如果这个规则变了,导致我们基于数据所做假设和决策依据也就失去了意义(Data Broken)。更何况保存数据及其收集时的背景(Context)也是一件不容易的事情。所以说,在收集数据的同时,我们必须知道未来可以用来做什么,今天都想不出来的话,日后就更不容易想出来了。
打一个比方,今天很多电商老板会问重复购买率是多少,于是我们收集数据来计算重复购买率,却很少想到需要重复购买率来做什么决定。这就好比刻舟求剑这个故事,他告诉我们世事在变,我们不能只是机械的套用方法或指标。就像重复购买率有不同的定义,而做不同的决策需要不同定义的重复购买率。如果从一家投资公司的角度来看重复购买率,它想收购A公司,那么会从重复购买率来看整个A公司的健康程度或用户质量等。如果从A公司本身运营的角度来看重复购买率,那么它更关注的是日、周级别的重复购买率的变化趋势,或者当月新增客户有多少人在三个月后的重复购买,从而可以衡量每个月新增及存量客户的忠诚度和质量,找出改善的空间。知道了以上的背景之后才去选择用什么数据不是更靠谱吗?
如何用框架来做决定?
对此,我总结了四步走的方法:
第一,首先确定有什么问题,从解决问题的角度出发收集数据;
第二,把收集的数据整理好,放入一个“数据框架”内(这个框架是用来帮助决策者做决定的)。让决策者用框更清楚地看到数据与决策之间的关系,比如A公司在框架内要知道竞争情况、新老客户比例情况等因素,以及多种因素互相的关系。
第三,看框架与决策的关系,比如A公司与导航网站有三种选择,完全不合作,部分合作,全面合作。根据数据框架告诉A公司该怎么决策。如果发现数据框架与决策不能匹配,就必须返回到第二步。
第四,根据决策做出行动,检查行动是否达到了目的。如果行动了发现根本没达到目的,就要检讨整个链条,看问题出在哪里。是数据有问题吗?还是因为框架不对?或者是决策不对?是否还有数据没考虑进去?
所以,又回到之前我老说的话题,不懂商业就别谈数据。想要解决的问题越复杂,框架也越复杂。而对于现在多数还没有开始做数据应用的电商公司来说,一开始框架千万不要太复杂,一定是针对某个需解决的问题开始搭框架,令框架与决策之间的关系非常清楚。你的问题是什么,你的decison是什么,反过来你的框架又该怎么样。从小角度切入,从“小”做起。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01