
数据挖掘之用户价值分析
这里要介绍的是基于每个用户行为的综合性的分析和评定,主要包括用户的忠诚度和用户的价值。“以用户为中心”的理论要求网站不断优化改善用户的体验,进而提升用户的满意度,当用户的预期不断被满足时,用户就会喜欢上这个网站,进而发展成为网站的忠诚用户,同时不断地为网站输出价值。忠诚用户不但自身为网站创造价值,而且可以为网站带来许多隐性的收益,比如品牌和口碑的推广,带动其他用户的进入和成长。所以网站的忠诚用户是网站生存和持续发展的基石,我们需要掌握每个用户的忠诚度,同时也需要了解每个用户的价值体现。
这次的数据分析需求来自网站的营销部门,营销部门的同事需要跟进一些网站的已付费用户和潜在的付费用户,以便更好地推广网站的产品,为客户提供更好的服务,引导新用户的消费和老客户的持续性消费。营销部门因为资源有限,面对不断扩大的客户群体开始犯愁,他们没有精力对每位用户进行跟进和服务,于是他们请求数据分析师的帮助,帮他们寻找定位目标客户,以便提升工作效率。销售部门发来了数据分析的需求邮件。 看来这个问题确实困扰着营销部的同事,如果他们所做的营销工作大部分用户没有任何响应,这是一件让人非常沮丧的事情。他们的目的就是缩小目标群体,定位那么有意愿有潜力的价值客户,以便减少日常的无效工作,提升效率。他们需要的就是用户忠诚度的分析、用户价值的评定和用户价值的持续发展情况。我们用数据分析的方法来一一解决这些问题。
基于用户行为的忠诚度分析
用户忠诚度(Loyalty)是用户出于对企业或品牌的偏好而经常性重复购买的程度。对于网站来说,用户忠诚度则是用户出于对网站的功能或服务的偏好而经常访问该网站的行为。根据客户忠诚理论,传统销售行业的忠诚度可由以下4个指标来度量:
l 重复购买意向(Repurchase Intention):购买以前购买过的类型产品的意愿;
l 交叉购买意向(Cross-buying Intention):购买以前为购买的产品类型或扩展服务的意愿;
l 客户推荐意向(Customer Reference Intention):向其他潜在客户推荐,传递品牌口碑的意愿;
l 价格忍耐力(Price Tolerance):客户愿意支付的最高价格。
以上4个指标对于电子商务网站而言,可能还有适用性,但对于大多数网站是不合适的,所以为了让分析具有普遍的适用性,同时为了满足所有的指标都可以量化(上面的客户推荐意向比较难以量化),以便进行定量分析的要求,我们选择所有网站都具备的基于访问的用户行为指标:用户访问频率、最近访问间隔时间、平均停留时长和平均浏览页面数,这些也是Google Analytics原版本中用户忠诚度模块下的4个指标。
这4个指标在上文已经多次提到了,定义不再重复介绍。统计数据的时间区间也是根据网站的特征来定的,如果网站的信息更新较快,用户访问较为频繁,那么可以适当选取较短的时间段,这样数据变化上的灵敏度会高些;反之,则选择稍长的时间段,这样用户的数据更为丰富,指标的分析结果也会更加准确有效。在统计得到这4个指标的数值之后,单凭指标数值还是无法得到用户忠诚度的高低,需要对指标进行标准化处理得到相应的评分,通过评分就可以分辨用户的忠诚度在总体中处于什么样的程度。
这里使用min-max归一化的方法,将4个指标分别进行归一化后缩放到10分制(0~10分)的评分区间。这里需要注意的是,min-max归一化会受到异常值的影响,比如用户浏览页面数有一个50的异常大的数值,那么归一化后大部分的值都在集中在较小的分值区域,所以建议在归一化之前排查一下各指标是否存在异常值,如果存在,可以对异常值进行转换或过滤;同时这里的最近访问间隔时间同样适用“天”为单位,注意归一化的时候需要进行特殊处理,因为间隔天数越大,相应的评分应该越小,不同于其他3个指标,其他3个指标使用公式(x-min) / (max-min),最近访问间隔天数要使用(max-x) / (max-min)的方式进行处理。我们使用近一个月的用户访问数据,选择其中3个用户列举一下用户行为数据的处理情况,见表6-2。
表 6-1 用户忠诚度指标评
表6-2中,用户忠诚度的4个分析指标经过标准化处理后统一以十分制的形式输出,这样就能直接区分每个用户的每项指标的表现好坏。基于每个指标的评分,可以对用户进行筛选,比如营销部门重点跟进经常访问网站的用户,可以选择访问频率评分大于3分的用户,或者重点跟进用户访问参与度较高的用户,可以筛选平均停留时间和平均访问页面数都大于3分的用户,这样能够帮助营销部门迅速定位忠诚用户。
这里我们用4个用户行为指标来评价用户的忠诚度,这类基于多指标从多角度进行评价最常见的展现方式就是雷达图,或者叫蛛网图,在电脑游戏里面比较常见,比如一些足球游戏使用雷达图来表现球员的各方面的能力指数,如防守、进攻、技术、力量、精神等,所以这里也可以借用雷达图用4个指标来展现用户的忠诚度表现情况,如图6-18所示。
图 6-1 用户忠诚度雷达图
图6-18使用了表6-2中三位用户的评分数据绘制而成,能够非常形象地表现用户忠诚度在各指标上的表现情况,用户1的整体忠诚度较低,用户2在访问频率和访问间隔具有较好表现,而用户3的访问具有相对较高的参与度。使用雷达图分析用户的忠诚度主要有如下优势:
u 可以完整地显示所有评价指标;
u 显示用户在各指标评分中的偏向性,在哪些方面表现较好;
u 可以简单观察用户整体的忠诚情况,即图形围成的面积大小(假设4个指标的权重相等,若重要程度存在明显差异,则不能用面积来衡量);
u 可以用于用户间忠诚度的比较。
所以,基于雷达图展现用户的忠诚度之后,营销部门可以直接查看哪些用户具有较好的忠诚度,哪些用户值得他们重点跟进。
基于用户行为的综合评分
上面介绍的用户忠诚度分析使用用户的4个行为指标来进行评估,但我们只能看到各指标的表现,无法评定用户忠诚度的总体水平,所以需要对所有的相关指标做汇总处理,获取一个综合评分,就像足球游戏中球员的综合能力值(Overall)。上面忠诚度的相关指标经过标准化已经统一了度量区间,最简单的方法就是取所有相关指标评分的均值来计算得到忠诚度综合评分,这样的处理将所有指标以同等的重要性进行对待,但现实情况下不同指标对综合评分的影响是不一样的,有些指标比较关键,有些则相对次要,所以这里引入AHP的方法来设定不同指标的权重。
AHP(层次分析法)是美国运筹学家T. L. Saaty教授于20世纪70年代初期提出的,AHP是对定性问题进行定量分析的一种简便、灵活、实用的多准则决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断将每个层次元素两两比较的重要性进行定量描述。而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。层次分析法适用于多目标决策,用于存在多个影响指标的情况下,评价各方案的优劣程度。当一个决策受到多个要素的影响,且各要素间存在层次关系,或者有明显的类别划分,同时各指标对最终评价的影响程度无法直接通过足够的数据进行量化计算的时候,就可以选择使用层次分析法。
了解了AHP之后,我们以上面的忠诚度评分为例,先简单介绍AHP的应用。首先根据忠诚度的影响指标构建层次模型,这里只需要两层,上层是忠诚度,下层是影响忠诚度的4个指标,如图6-19所示。
图 6-2 忠诚度评分层次模型
我们需要计算底层的4个指标对忠诚度的影响权重,需要构建对比矩阵,即运用9标度对需要赋权的同层各影响要素间进行两两比较,例如模型中的要素i相对于要素j对上层的重要程度,1表示i与j同等重要,3表示i比j略重要,5表示i比j重要,7表示i比j重要很多,9表示i比j极其重要,可以用Wi/Wj表示该重要程度,两两比较后可以得到以下矩阵:
两两比较的结果可以得到矩阵对角线上方的各个比值,而这个矩阵对角线两边的对称元素是相互的倒数,并且对角线的所有元素的值都为1,所以得到对角线一侧的数值就可以得到整个矩阵。因为矩阵的数值是两两比较的结果,所以可能存在A元素比B元素重要,B元素比C元素重要,但C元素却比A元素重要的情况,也就是矩阵的不一致性,所以首先需要验证该对比矩阵的一致性。可以通过计算矩阵的最大特征值的方法来衡量矩阵的一致性,相关的指标有一致性指标CI,随机一致性指标RI,一致性比率CR=CI/RI,一般当CR<0.1时,我们认为该对比矩阵的一致性是可以被接受的。如果矩阵的一致性满足要求,则可以根据矩阵的最大特征值进一步计算得到对应的特征向量,并通过对特征向量进行标准化(使特征向量中各分量的和为1)将其转化为权向量,也就是我们要求的结果,权向量中的各分量反映了各要素对其相应的上层要素的影响权重。
因为层次分析法AHP的计算过程设计一些高等数学相关方面的知识,需要详细了解可以参考一些统计学、运筹学和决策学方面的书籍和资料,也可以在网上直接搜索AHP的分析软件,一些工具支持在输入指标两两比较的结果后就可以直接输出一致性检验结果及各层次指标的权重系数。
表 6-2 用户忠诚度加权评分
表6-3中,通过加权的方式计算得到用户忠诚度评分之后,就可以直接比较忠诚度评分来评价哪个用户的忠诚度综合值较高、哪个较低,营销部门的同事就有了对用户更直接的取舍依据。
上面只是对用户的忠诚度做了评定,无法体现用户创造的价值,而营销部门的第二个需求点就是对用户的综合价值的评定,比如电子商务网站的用户可能具备一定的忠诚度,但如果只看不买,仍然无法为网站带来足够的价值,所以需要进一步评定用户的价值输出,电子商务类网站尤其可以关注这一点。为了体现用户的价值输出,我们在选择指标的时候需要考虑与用户购买消费相关的指标,这里罗列了5个指标供参考:
1. 最近购买间隔:可以取用户最近一次购买距当前的天数,反映用户是否继续保持在网站的消费;
2. 购买频率:用户在一段时间内购买的次数,重点反映用户的消费黏度;
3. 购买商品种类:用户在一段时间内购买的商品种类或商品大类,反映用户需求的广度,可以分析用户价值输出的多样性和扩展空间;
4. 平均每次消费额:用户在一段时间内的消费总额÷消费的次数,即客单价,反映用户的平均消费能力;
5. 单次最高消费额:用户在一段时间内购买的单次最高支付金额,反映用户的支付承受能力,同时也能体现用户对网站的信任度。
上面的5个指标从不同的角度反映了用户的价值输出能力,并且是可量化统计得到的,同样有时间区间的限制,需要注意选择合适的时间段长度。为了能够统一衡量价值,同样需要对上面的5个指标进行标准化,使用10分制的方式输出进行评定,还是使用雷达图,如图6-20所示。
图 6-3 用户价值雷达图
图6-20用雷达图展现了3个用户各指标的数据表现来反映用户的价值特征,根据每个指标的属性可以将用户的价值进一步分为两块,其中最近购买间隔、购买频率和购买商品种类用来表现用户的购买忠诚度,而平均每次消费额和单次最高消费额用于反映用户的消费能力,图6-20中框起来的两块区域,雷达图的上半部分用于表现用户的购买忠诚度,下半部分用于表现用户的消费能力,从图中3个用户的数据进行分析,用户3的整体价值较低,用户1和2的价值较高,而且用户1的价值集中体现在较高的消费能力,用户2的价值更多地体现在较高的购买忠诚度。
雷达图很好地展现了用户价值在不同指标中的体现,再结合层次分析法,就可以对用户的价值进行综合评分,基础的数据源于上面5个指标的评分结果,使用AHP不仅可以得到最终的用户价值评分,同时还可以得到上面的购买忠诚度和消费能力这两方面的评分。
图 6-4 用户价值评分层次模型
图6-21是使用AHP的方法构建的用户价值评分层次模型,底层是5个基础指标,中间层是用户价值的两个方面,分别对应各自的指标,最上层就是用户的综合价值。这里需要使用3次AHP来计算:
购买忠诚度和消费能力对用户价值的影响权重;
最近购买间隔、购买频率和购买产品种类对购买忠诚度的影响权重;
平均每次消费额和单次最高消费额对消费能力的影响权重。
经过3次两两比较计算后就可以得到图上的每一层指标对上次的影响权重,正如连接线上标注的数值,转化为公式的结果如下:
用户价值 = 购买忠诚度×0.67 + 消费能力×0.33
忠诚度 = 最近购买时间×0.12 + 购买频率×0.64 + 购买产品种类×0.24
消费能力 = 平均每次消费额×0.67 + 单词最高消费额×0.33
经过推导,我们可以用底层5个指标的评分直接计算得到用户的综合价值评分:
用户综合价值评分=(最近购买间隔评分×0.12+购买频率评分×0.64+购买产品种类评分×0.24)×0.67+(平均每次消费额评分×0.67+单次最高消费额评分×0.33)×0.33
用户综合价值评分=最近购买间隔评分×0.08+购买频率评分×0.43+购买产品种类评分×0.16+平均每次消费额评分×0.22+单次最高消费额评分×0.11
有了上面的计算公式,图6-21中所有层次的评分都可以计算得到了,我们根据雷达图中举例的3个用户的数据来计算一下他们的综合得分情况,见表 6-4。
表 6-3 用户价值加权评分
表中不仅计算得到了综合价值评分,同时得到了购买忠诚度和消费能力这两个中间层的得分,这样我们不仅能够通过直接比较用户的综合价值评分获取网站的重要用户,同时忠诚度和消费能力的评分也为针对用户的细分提供了一个有力的量化数值参考依据,如图6-22所示。
图 6-5 用户价值评价细分图
图中展示了100位用户的价值评分数据,根据购买忠诚度和消费能力的评分情况分成了4块,从中可以看出电子商务网站用户特征的分布情况:
从C区域可以看出用户较多地分布在忠诚度和消费能力评分为3附近的区域,也是网站最普遍的客户群;
B区域的用户是网站的最有价值客户(VIP),但是数量相当稀少,可能不到10%;
在A区域有一个点密集区间(忠诚度1~2、消费能力8~9),可以认为是网站的高级消费用户群,他们消费不多,但消费额很高,如果你的网站提供高价值消费品、批量购买等服务的话,那么他们就可能是那方面的客户群;
D区域的用户虽然消费能力也不强,但他们是网站的忠实粉丝,不要忽视这些用户,他们往往是网站线下营销和品牌口碑传播的有利拥护者。
通过类似上面的分析过程,可以发现电子商务网站用户的某些特征,为网站的运营方向和营销策略提供一定的决策支持。如果你要制订针对用户的营销策略,你会先从A、B、C、D这4类用户群体中的哪类先下手?
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01