京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析的基本流程和方法
在大数据时代,数据分析的重要性显得更加突出,但是数据分析是一个相对比较专业的领域。数据分析的目的性很强,数据收集、数据处理和数据建模都要围绕数据分析的目的展开;同时数据分析有对专业知识和技巧要求比较高,如概率统计、数学建模的等。本文将介绍数据分析的基本流程和方法,并以一个数据分析的具体实例来来揭开数据分析的神秘面纱。
某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。
定义问题
明确数据分析目标是数据分析的出发点。明确数据分析目标就是要明确本次数据分析要研究的主要问题和预期的分析目标等,简单的说就是定义问题。
针对这个具体问题,最根本的目标是预测不同价格和广告费用下的销售量,而且也决定了途径,找出牙膏销售量与销售价格和广告投入之间的关系。所以预期的分析目标确定了,就是预测不同价格和广告费用下的销售量,主要问题如何找到牙膏销售量与销售价格和广告投入之间的关系。
当对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法进行数据分析,但是如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是搜集大量的数据,基于对数据的统计分析找到相关因素的关系。
预测牙膏销量的问题,是一个“灰箱”问题,无法准确地在已掌握市场运行规律的基础上去推理分析药膏销量与价格和广告投入之间的关系,再者,要考虑到市场中不只是只有一家牙膏公司。显然,整个问题是无法通过简单推理分析来确定销量与价格和广告投入之间的关系的。
收集数据
正确收集数据是指从分析目标出发,排除干扰因素,正确收集服务于既定分析目标的数据。正确的数据对于实现数据分析目的将起到关键性的作用。如何正确的收集数据呢?简单的说就是用恰当的数据收集方法收集正确的的数据。
总体上讲有三类原始数据收集的方法原始数据包括实验方法、调查方法、观察方法等,
实验研究是一种受控的观测方法,通过一个或多个自变量的变化来评估它对一个或多个因变量产生的效应。统计调查研究(survey research)已经广泛应用于各个领域,包括政治学、社会学、经济学、教育学和管理学科。它是以研究样本的数据为基础辨析总体状况的研究方法。实地研究(fieldresearch)是对自然状态下的研究对象进行直接观察,收集一段时期内若干变量的数据。实地研究(fieldresearch)是对自然状态下的研究对象进行直接观察,收集一段时期内若干变量的数据。每种数据收集的方法都有自己的优缺点和适用范围,这里不详谈。
针对这个问题将采用样本统计调查(sample survey)的方法,但是该收集那些数据呢?研究的主要问题就是发现本公司牙膏销量与牙膏价格和广告投入的关系。正确的数据肯定包含该公司各个销售周期的销售量、销售价格和广告投入。但是从上面的分析中可以看到,本公司的牙膏销量绝对和其他公司的牙膏价格有关系,因此把其他牙膏公司的销售价格也作为数据收集对象。
数据处理
在明确数据分析目标基础上收集到的数据,往往还需要进行必要的加工整理后才能真正用于分析建模。数据的加工整理通常包括数据缺失值处理、数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,它能够帮助人们掌握数据的分布特征,是进一步深入分析和建模的基础。
回到具体问题,收集到的数据有该公司的每个销售周期的牙膏销售量、价格、广告投入、和其他牙膏公司的价格。其他牙膏公司的价格和各公司的牙膏销售量有关系,但是其他公司的药膏价格却是有很多统计变量组成的,但是这些变量的影响作用是具有同样的规律,可以把这些变量看做一个整体,于是可以对这些统计变量做个取均值的处理,这是对数据处理的第一步。
由于牙膏是生活必需品,对大多数顾客来说,在购买同类产品的牙膏时更多地会在意不同品牌之间的价格差异,而不是它们的价格本身因此,在研究各个因素对销售量的影响时,用价格差代替公司销售价格和其它厂家平均价格更为合适。这是对数据处理的第二步。
记牙膏销售量为y,其它厂家平均价格与公司销售价格之差(价格差)为x1公司投入的广告费用为x2,其它厂家平均价格和公司销售价格分别为x3和x4, x1=x3-x4.
为了大致分析请y与x1和x2的关系,我们可以分别简单的绘制y对x1和x2的散点图。
图 1 y对x1的散点图
从图1可以发现,随着x1的增加,y的值有比较明显的线性增长趋势,图中的直线是用线性模型。
图 2 y对x2的散点图
当x2增大时,y有向上弯曲增加的趋势,图中的曲线使用二次函数拟合的,可以看到二者具有非线性关系。
数据加工整理完成后一般就可以进行进一步的数据分析了。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。另外,统计软件的不断普及和应用中的不求甚解也会加重这种现象。因此,在数据分析中应避免盲目的"拿来主义",否则,得到的分析结论可能会偏差较大甚至发生错误。
另外,选择几种统计分析方法对数据进行探索性的反复分析也是极为重要的。每一种统计分析方法都有自己的特点和局限,因此,一般需要选择几种方法反复印证分析,仅依据一种分析方法的结果就断然下结论是不科学的。
很对本问题,经过数据的简单处理和分析,已经可以看到销售量总体上和价格差成线性关系,销售量和广告投入上成非线性关系,因此可以建立一个回归模型,根据统计信息来求解模型,获得变量的系数,完成对模型的求解。
从图1可以发现,随着x1的增加,y的值有比较明显的线性增长趋势,可以得到公式1,
(1)
从图2中可以你发现,当x2增大时,y有向上弯曲增加的趋势,可以得到公式2,
(2)
根据以上分析可以建立如下回归模型(3)
(3)
其中和成为回归变量,,,,就是回归系数,影响的其它因素包含在随机误差中。
直接利用MATLAB中统计工具箱中的命令regress求解,使用格式为
[b,bint,r,rint,stats] = regress(y,x,alpha).其中,y为表中30个周期的销售量,长度为30的一向量,x为回归系数的数据矩阵[1,,,],是一个30*4的向量,b为回归系数向量的估计值,bint为其置信区间,r为残差向量,rint为残差向量的置信区间,stats为回归模型的检验统计量,包括三个变量,回归方程的决定系数,F统计变量值,与F统计变量值对应的概率p。
分析与结论
数据分析的直接结果是统计量和统计参数。正确理解它们的统计含义是一切分析结论的基础,它不仅能帮助人们有效避免毫无根据地随意引用统计数字的错误,同时也是证实分析结论正确性和可信性的依据,而这一切都取决于人们能否正确地把握统计分析方法的核心思想。
另外,将统计量和统计参数与实际问题相结合也是非常重要的。客观地说,统计方法仅仅是一种有用的数据分析工具,它绝不是万能的。统计方法是否能够正确地解决各学科的具体问题不仅取决于应用统计方法或工具的人能否正确地选择统计方法,还取决于他们是否具有深厚的应用背景。只有将各学科的专业知识与统计量和统计参数相结合,才能得出令人满意的分析结论。
本问题的计算结果如下:
且=0.9054, F = 82.9409, p= 0
=0.9054表示销售量的90.54%可由上述模型确定,F值远超过F检验的临界值,p远小于0.05,因而从总体上看模型是可用的。
回归模型的一个重要应用是,对于给定的回归变量的取值,可以以一定的置信度预测因变量的取值范围,即预测区间。比如当x1=0.2,x2=6.5 时可以算出牙膏销售量的置信度为95的预测区间[7.8230,8.7636],它表明在将来的某个销售周期中,如公司维持产品的价格差为0.2元,并投入650万元的广告费用,那么可以有95%的把握保证牙膏的销售量在7.8230,8.7636百万支之间,实际操作时,预测上限可以用来作为库存管理的目标值,即公司可以生产(或库存)8.763百万支牙膏来满足该销售周期顾客的需求;预测下限则可以用
来较好地把握(或控制)公司的现金流,理由是公司对该周期销售7.8230 百万支
牙膏十分自信.这在实际中将具有非常大的作用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16