京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何利用市场细分方法构建更好的预测模型
我们使用线性或者逻辑回归模型来开发精确模型,为了预测相关的输出结果。我们经常为分割的部分分别创建模型。为了判断它们的有效性,我们可以利用细分方法:如CHIAD或者CRT。
但是,这真的有必要吗?我们可不可以创建一个单独的模型和使它含有区融变量作为模型的输入。
这可能可以。特别是根据市场细分创建细分模型可能是一件吃力不讨好的事情,不值得。但是创建市场细分的相关模型可能能提供更精准的预测。
在本文,我不仅会针对上面的问题给出答案,而且会和大家分享有关模型的最佳市场细分指南。而且,本文也会探索利用复杂技术的市场细分模型方法,如在一个简单的逻辑或线性回归框架中使用随机梯度增加模型和随机森林模型(虽然使用起来非常有限)。
通过本文,让大家了解建模流程的相互作用的本质和重复利用上述提到的复杂技术的优势。
什么是市场细分?
我可以从市场的深度给大家解释这个概念,但是,市场细分为什么能够令复杂的事情简单化呢?
因此,我将市场细分定义为:“在一些重要特性的基础上划分目标市场和客户,可以帮助企业用更少的市场成本销售更多的产品。”
企业的预算是有限的。而且企业希望市场团队可以在这样的情况下完成大量的销售,确保收入利益不断增加。在有限的预算中,如何实现利益增收?答案就是:使用市场细分。
让我们回到前面,了解企业是如何创造出人们愿意买的产品。
实际上,一个产品的创造有两种方式:
1、经过对目标市场的需求进行分析研究后创建产品。举例:电脑。像戴尔,IBM和微软都是在分析了大量市场并得出电脑市场值得发展的情况下,才进入这个市场。
2、创建一个产品,能够唤起目标市场的需求和渴望。举例:iphone。没有人知道他们需要触屏手机,知道乔布斯令他们意识到自己被剥夺了这个需求。
一旦产品被创建出来,市场团队离成功就更近了。上面提到的,他们利用了市场细分技术。这确保了产品定位在合适的客户细分群体,可以实现更多的销售。
市场细分技术
这儿有两个广义的市场细分方法:目标(有人监视的)和无目标的(无人监视的)市场细分方法。正如名称所示,一个带有监视的方法要求目标可作为市场细分来描述。
下面是一些有目标和无目标的方法案例。
目标市场细分:
市场细分确认客户类型,哪些客户对特别提供的产品感兴趣。
市场细分确定客户群众中的高消费人群,谁可以使用电子商务进行刺激消费。
市场细分确定哪些客户违反了贷款或者信用卡的信贷责任。
无目标的市场细分
客户基础的市场细分了解特定画像,这些画像存在于客户基础之中,因此多样化的市场行为可以根据细分情况定制。
基于不同地域的人们的富裕程度和生活水平的地理市场细分,形成特定的销售和配送策略。
基于浏览行为的网络位置参观者的市场细分,了解品牌的兴起和受欢迎程度。
因此,创建基于目标市场细分的方法必须要从不同的方面入手 ,这是很关键的。(eg:响应要约)
但是,关于无目标的方法,根据各方面得出的市场细分和观察结果得到的“通用画像”不同,但是和 任何特定的追求目标没关系。
最常用的目标市场细分方法是CHIAD和CRT。这些技术尝试将已描述的目标的细分之间的差异最大化。(这些目标有时候是所谓市场细分的参考目标)。CHIAD使用X平方分布统计,而CRT使用不纯基尼度算法。
创建无目标市场细分的常用技术是聚类分析法和K最近邻技术(K nearest neighbor techniques)等。
这些技术使用了距离测试方法(如:欧式距离,曼哈顿距离,马氏距离等)这些测试能把两个细分之间差异最大化。这意味着市场细分之间的最大区别是和所有变量(或因素)的结合有关。
如何创建发展中模型的市场细分
1、通常采用的方法
如果你一直在看这篇文章,那么我们已经准备好去深入研究这些创建市场细分的方法。当然,考虑为每个市场细分创建单独模型作为唯一目标。
让我们思考下面这个例子:
在这里,我们将创建一个逻辑回归模型来预测客户对供给的产品的可能(接受)性。当然也可以使用线性回归模型。我将在下一节进行讨论。
逻辑回归:
该模型在历史运动数据中使用1或0指示,指明客户对提供的产品是否做出反应。
通常,使用已经被确定了模型发展的目标(或者已知的“Y”作为独立变量)来进行市场细分。记住,每个细分将建立单独的模型。一个市场细分计划可实现和通常选择的目标有关的不同市场细分的最大差异。下面是该方法的举例:
图1:建立一个逻辑回归模型的市场细分案例—普遍采用的方法
此图译为:
以上市场细分方法是最好的可能用来发展目标市场细分的方法,因为这些细分演示了跟目标有关的最大区别。(如:反应率)。
在上面的这棵树中,每个分割模块应该代表一个统计学上跟目标有关的不同节点之间的显著差异。如果使用CHIAD算法开发市场细分这棵树,那么每个分割(单独)模块的X平方值应该是从0开始有显著差异。(通过分割法的“P”值测试)
另外,这是普遍的“商业直觉”(不是通常都可以拥有完整的统计理由),为了发展单独的模型,相邻节点之间的反应率应该相差至少30%(如:如果指定节点的反应率是0.7%,同样的,它相邻的节点是0.5%,那么它们反应率应相差30%)。
通常采用的方法建议应该为每个终端节点或者结束节点建立一个单独的模型,它已经显示为表中绿色部分。但是,这是从建模的角度得到的最好方法吗?为了回答这个问题,我们需要找到一个测试方法,可以从建模的角度评价一个市场细分。
为了建立单独的模型和评价一个市场细分计划的最有效的方法是提升预测能力,它可以通过建立市场细分模型实现。将用下面的案例进行描述。
让我们假设一个逻辑模型,是建立在总人口上的,用来预测反应的可能性。
我们设计这个为模型-1(主要分析描述它作为母模型),该模型的基尼度为0.57。市场细分开发方法的一部分,建立5个单独的模型,对应每个结束节点(主要作为子节点进行分析描述)。
逻辑模型2-1:市场细分“年龄小于30”的预测反应
逻辑模型2-2:市场细分“年龄介于30-48之间,且收入少于800K卢布”的预测反应
逻辑模型2-3:市场细分“年龄介于30-48之间,且收入大于等于800k卢布”的预测反应
逻辑模型2-4:市场细分“年龄大于48,收入少于100万卢布”的预测反应
逻辑模型2-5:市场细分“年龄大于48,收入大于等于100万”的预测反应
在建立5个单独模型之后,各自的观察结果(或记录)和5个数据集(针对每个结束节点)计算得分或者预测可能性是附加的操作。
结合数据集的基尼度将与模型-1的基尼度做对比。然后,两个系数将被设计去提升预测力量。举例:如果结合数据集的基尼度为0.6,那么提升后将是1.05。这可以通过图表看出,虽然市场细分是最佳的可能目标市场细分,但是它仅提供了5%的额外的预测能力的提升。
让我们寻找为什么该案例会是这个样子。它应该被提到,当发展线性模型的时候,应该考虑调整判定系数的提升而不是 基尼系数的提升。
当建立整体模型(模型1),可以使用合适的虚变量法来表示市场细分。比如,可以使用下面的虚系数(它应该根据自由约束度被标记,将有一个小于所有虚拟系数的数)
虚拟-1:年龄小于30,1或0
虚拟-2:年龄介于30-48,1或0
虚拟-3:收入800k卢布
虚拟-4:收入介于800k至100万卢布
如果使用虚拟数据去重复市场细分树,那么模型的预测能力将会更好。
虚拟-1:年龄小于30
虚拟-2:年龄介于30和48之间,和收入少于800k卢布
虚拟-3:年龄介于30和48之间,收入超过800K卢布
虚拟-4:年龄超过48且收入少于100万卢布
这些虚拟变量可以提供反应率相同的差异化,作为5个独立的细分 。因此,可以通过市场细分看到反应率的差异化,可以通过整个回归模型的一系列虚拟变量轻易的重复。
但是,这不是预测能力的微提升背后的完整解释。表二提供了子模型的变量列表。
这些模型的变量是根据它们的预测优势能力排序(通过卡方统计量和标准化测试版本进行测试)。这些相同的颜色用来描述整个细分的特定变量,为了更加容易的进行对比。
表2:贯穿5个子模型的变量
上图对应译为:
可以观察发现5个子模型的变量相当相似,虽然变量的相关序列有些许不一样。这意味着在整个细分里促使反应的因素是相似的。另外,如果考虑整个市场细分的特定变量的预测模式,可以观察一些更有趣的。
表3描述了变量“过去12个月的购买数目”的预测模型。对于描述这样的模式,证据权重正在发挥作用。
证据权重是普遍的测试方法,这是对于一个变量来说,用来了解值的特定范围是否有集中度较高或者较低的预期目标。证据权重的正面值意味着有较高的集中度,反之亦然。
在这种情况下,对于购买次数相对高的值,将观察到一个更高的证据权重。意味着受访者有着相对更高的集中度。当创建一个线性模型时,在每个变量里,目标的平均值应该用来了解预测模式。
表格的外在检查揭示了虽然在市场细分里,证据权重是不同的,但是趋势是非常相似的。这意味着变量的预测模式在市场细分里是相似的。因此,变量在整个模型的影响不是有那么大差异的,对比市场细分带来的明智的影响。
换句话而言,这意味着市场细分变量(年龄和收入)和预测变量“过去12个月的购买次数”。因此,市场细分不能令人们的获得任何利益,即使提升了预测能力。
同样注意到,在这个案例里,市场细分的变量信息值是相似的。就线性模型而言,部分判定系数可以使用而不是使用信息值。如果这是高度预测变量的情况,那么市场细分应该添加极限值去提高整个预测能力。
表3:在5个市场细分中,变量“过去12个月的购买次数”的预测模式
蓝色:逻辑模型2-1:市场细分“年龄小于30”
红色:逻辑模型2-2:市场细分“年龄介于30-48之间,且收入少于800K卢布”
绿色:逻辑模型2-3:市场细分“年龄介于30-48之间,且收入大于等于800k卢布”
紫色:逻辑模型2-4:市场细分“年龄大于48,收入少于100万卢布”
蓝色:逻辑模型2-5:市场细分“年龄大于48,收入大于等于100万”
2、合适的方法
为了利用市场细分变量和预测变量之间的相互作用,设计市场细分的方案很重要,预测者和变量的预测模式在市场细分是不同的。
这将帮助人们创建方案,可以使市场细分的模型的预测能力高于整体模型的预测力量。
表4提高了一个可选的市场细分方案,来解决之前提到的问题。
表4:为创建逻辑模型进行市场细分模型-可选的方法
这种情况下,应该开发下面这些市场细分模型(子模型)
逻辑模型3-1:预测“过去12个月没有购物”的市场细分反应
逻辑模型3-2:预测“过去12个月至少购物两次”的市场细分反应
逻辑模型3-3:预测“过去12个月购物2次以上和没有提交过产品评价”的市场细分反应
逻辑模型3-4:预测“过去12个月购物至少2次以上以及提交产品评价至少一次以上”的市场细分反应
子模型的变量已经在表5描述。作为之前提到的情况,常用变量已经用相同的颜色突出表示。可以观察到在这样的情况下,市场细分之间的变量重叠的范围是非常有限的。因此,每个市场变量代表一个相同组的客户,他们的反应驱动因素几乎完全不同。
因此,在这样情况下,模型的市场细分系统的基尼系数是明显高于整体模型的基尼系数的。这个市场细分提供了具备明显优势的预测力量,因为市场细分变量和预测变量的相互作为而产生。
表5:4个子模型的变量
表6:在5个市场细分里,变量“过去24个月购买次数”的预测模式
蓝色:模型3-1过去12个月没有购买记录
红色:模型3-2过去12个月至少两次购买记录
绿色:模型3-3过去12个月多于2次购买记录,没有提交产品评价
紫色:模型3-4过去12个月多于2次购买记录,至少一次提交产品评价
在这样的情况下,观察到在市场细分中,特定变量的预测模式是具有明显的不同的。表5的线更加分散,与表3相比看起来差别更加明显,这意味着变量的预测模式在市场细分里是不同的。
因此,变量的影响在整个模型中,对比市场细分的明智的影响是相当不一样的。换句话来说,这意味着,在市场细分变量和预测变量“过去18个月没有不同的购买项目”之间有着显著的相互作用。
因此,市场细分期望在预测能力中产生最佳提升。在这种情况下,它应该被标记,变量的信息值在市场变量中是不同的。
使用机器学习进行市场细分
这又是另外一个有趣的方面。对于市场细分,考虑基于多棵树的机器学习算法是好的。多重累计回归树,自由森林树和增加随机梯度这些技术可以使用众多的树和相同的整体进行预测。
如:如果考虑增加随机梯度,在一个非常简单的情况下(可能业余水平的情况下),包括建立一棵完整的树,令第一棵树的残差作为第二棵树的目标,依此计算下去直到发现预测能力得到进一步的提高。
在这样的情况下,树组成一些节点,确保它不会过度拟合数据。现实中,这些树希望能捕捉到相互之间的作用而不是和手头的目标靠的太近。可以联想到为了发展模型而进行的市场细分创建背后的哲理,其中市场细分的目标不是去实现更加接近目标的拟合,而是去确认相互作用的效果。
事实上,为了发展单独的模型,确认市场细分的可能性方法包括考虑在树的随机梯度增加完整的情况下得到第一批树的节点,考虑它们是否适合创建市场细分方法。
结束语
通过本文,我们学习了几个方面:
1、当为了模型发展而执行市场细分时,应该努力实现预测能力的提升,而不仅仅是为了追求目标的差异性。
2、市场细分捕捉相互作用的效果,因此预测者和预测模式是有一定的重要性的,他们在市场细分中发生改变。
3、创建市场细分的过程,包括发展每个市场细分的模型 ,以及投资已经从各子模型中选出来的变量。
4、在市场细分中,高度的预测变量的图形化测试可以获得有价值的洞察来。因此,这个过程要求对子模型进行迭代和详细分析。只依赖CHAID或者CRT算法可能无法获得合适的结果。必须记住,最初的目标是提高市场细分系统的预测能力。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05