京公网安备 11010802034615号
经营许可证编号:京B2-20210330
众所周知,无论是一个国家还是一个企业,在制定决策策略的时候,都不会询问每一个人的意见,对于国家而言,通常会收集各行各业代表的意见;对于企业而言,则是会选择一些有代表性的人员来进行意见调研。
同理,当我们需要对大量数据进行分析时,是否一定要纳入很多变量来构建模型呢?比如逻辑回归模型可纳入的变量个数是比较少的,那么当变量个数成千上万时,还可以来构建逻辑回归模型吗?此时,就需要引入维度分析的思想。
即选取一些重要维度中有代表性的变量来进行分析。比如某电信公司想要预测客户是否流失,而影响客户流失的维度有很多,比如有服务质量(信号差、计费错误)、费用高等等。
当你遇到这些问题时,如何快速找到问题的关键,从各维度中选取有代表性变量进行分析呢?
一般来讲,收集的数据中有很多是高度相关的,这表明这些变量很可能提供同一个维度的信息,这就需要对数据进行压缩,从大量的数据中归纳出少量的、最具有代表性的变量,选取的变量应该满足同目标变量相关且各个变量之间互不相关两个基本要求。
矩阵分析法的基本思想就是大数据小分析,所谓大数据小分析就是在做决策时对数据进行降维,以便决策者更加明确的了解事务的本质。所以,在学习矩阵分析法之前先来引入维度分析的思想。
从成千上万的变量中选择这样符合条件的变量,这就是维度分析的概念。这里的维度是指表述事物的不同方面。比如从长、宽、高3个维度描述立体形状;从思维、认识、创造、适应环境和表达这5个维度表述个人的智力情况。
分析:企业中可以获取的关于产品的信息有很多,比如利润率、费用比率、年销售增长率、市场饱和度、产品知名度、专利覆盖度和市场占有率等。这些信息初想起来对制订产品发展战略都有意义。然而波士顿咨询公司认为,只有相对市场占有率和市场成长率这两个变量在回答这个问题上最有价值,并将其固化为了“波士顿矩阵”,如图1所示。
那么,为什么会选择这两个变量呢?原因在于产品相对市场占有率和利润率、产品知名度有较强的关系,反映该产品的市场地位和产生现金流的能力,而市场成长率和市场饱和度强相关,反映产品的市场发展潜力,也就是说这两个变量是最具有代表性的两个变量,符合维度分析的基本思想。
(图1)
这两个代表性变量背后隐含的其实是在做产品分析时总会说到的所谓的产品生命周期理论,产品生命周期指的是随着时间的推移,产品总会经历初创期、成长期、成熟期和衰退期这几个阶段,如图2所示。
可以看出,在初创期,产品的收益率存在波动性,且成长率不太高;蛰伏很长时间后,产品进入成长期,销售额及盈利均呈现快速增长趋势;之后进入成熟期,该时期市场增长率开始降低,同时伴随着前期投资的变现,收益率增高;最后是衰退期,该时期如果追加投资,净资产收益率(ROE)会很低,而且很多衰退期的产品已经达到了红海的情况,竞争非常激烈,增长率也会偏低。
(图2)
进一步分析,市场成长率反映了产品生命周期的变化情况,而市场占有率反映了企业的具体产品的市场渗透情况,也就是说它们是两个独立的变量,分别反映不同维度(市场成长率反映了市场的情况,市场占有率反映了企业在市场上的情况)的信息,通过不同的维度对产品做出很好的分类。
以2005年的IBM为例,我们来看下IBM对于个人笔记本(PC)、服务器、咨询这几种不同类型的产品做出了怎样的决策,首先是PC业务,市场占有率并不高,同时市场成长率也比较低,属于瘦狗产品;其次是服务器业务,其市场占有率非常高,市场成长率处于成长期和成熟期之间,处于金牛和明星产品之间,更偏向于金牛产品;最后是咨询业务,其市场成长率很高,处于成长期,但是市场占有率偏低,属于问号产品。
根据以上分析背景,IBM公司做出了以下决策:瘦狗产品PC直接进行了出售,金牛产品服务器继续保留投资,问号产品咨询业务经过不断扶持发展成为了明星产品,之后发展成为了金牛产品,最后进入瘦狗产品的行列。
上述案例分析表明,波士顿矩阵分析可以帮助企业制定出不同的产品发展战略,包括资源分配、拟定业务战略、制定绩效目标以及平衡投资组合等。具体来讲,对于瘦狗产品,一般不会对其进行发展性资源的分配,而且制定的绩效会比较苛刻;对于问号产品,就要观察其未来市场的发展情况,如果发展良好,市场占有率不断增大,则可以考虑为其配置战略性资源,制定温和的绩效目标(比如客户粘性、客户增长率、客户好评度等等),而金牛产品更加关注收益类指标,对于客户粘性基本不做过多关注。
最后,波士顿矩阵的象限特征总结如下,根据不同类型产品的特征制定不同的发展战略。
(图3)
在矩阵分析法中,问号产品的发展轨迹如下:
(图4)
分析:模拟波士顿矩阵,波士顿咨询公司也给出了示例答案,描述这个问题的两个重要变量分别是市场规模和市场增长率,如图5所示,运用这两个变量对省份进行分类,从而做出相应的选择。同时,除了上述变量外,还引入了第三个变量市场收入增长额。
(图5)
可以看出,江苏、浙江在市场规模较大且市场增长率也较高。
分析:在行业选择方面的判断涉及到的指标较为复杂,经分析,大数据价值潜力指数和海量数据捕捉难易程度指数这两个指标在信息、数据等方面都更具备综合性。以美国经济为例,如图6所示。
(图6)
通过分析数据获取的难易程度和数据的价值,做出行业的选择。
分析:根据波士顿矩阵分析思路,对个体客户打标签,通过聚类分析,得到客户的类别,并且投影在由循环信用次数和交易次数这两个指标组成的二维空间上,便于业务人员理解。其中,交易次数反映的是客户的粘性,循环信用次数反映的是客户的价值,总之,也是通过维度分析的方法对客户进行了分类。
(图7)
以上几个例子都使用的是维度分析的方法,即决策层根据矩阵分析的结果获得决策的依据,决定产品的投资与否;如果假设当前还没有波士顿矩阵,那么数据分析师该如何产出该矩阵呢?即如何从成千上万的指标中选择出有代表性的指标进行分析呢?
这就用到了常用的信息压缩方法—主成分分析法,主成分分析法会帮助我们将多个指标压缩到少量的几个综合指标,但是这几个综合指标没有实际的业务含义,所以就产生了因子分析,因子分析可以在主成分分析的基础上帮助我们探查相应的业务含义,最终可以直接根据因子分析的结果构建相应的分析矩阵,也可以根据因子分析的结果发现与因子相关的变量,根据代表性的变量构造分析矩阵。
在现实情况中,由于获取的数据日益丰富,建模使用的原始数据可能有成千上万个变量,这么多的变量对于建模的解释会造成一定的困难。其中的一大危险就是引入了冗余变量。针对冗余变量的问题,通常依据降维的理念对多维连续变量的数据进行处理,从而达到变量筛选和降维的目的。
降维的本质就是去除冗余变量,保留主要变量。在进行建模时,一般原始数据的变量非常多,若直接建模,计算量会随变量数量的增加呈指数增长,同时模型稳定性下降,维护成本增加。此时就需要通过各种办法降低数据的维度并筛选对模型有用的变量。若数据的维度能够被降低到符合预期的程度并且不至于损失太多对模型有用的信息,那么,这种降维就是理想的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22