数据分析_CDA答疑社区

1.同比与环比表示什么

同比：与历史同时期比较，就是与不同年份的同一时期作比较

例如：2019年7月份与2018年7月分相比

环比：与上一统计段比较，就是与前一个相邻的时期作比较

例如：2019年7月分与2019年6月份相比

2.阐述一个数据分析的主要流程（例子：航空客户价值分析）

业务系统 ——> 数据抽取 ——> 数据探索与预处理 ——> 建模&应用 ——> 结果&反馈

在这里插入图片描述

3.如何进行异常值处理

在数据预处理时，异常值是否剔除，需视具体情况而定，因为有些异常值可能蕴含着有用的信息。

异常值处理方法	方法描述
删除含有异常值的记录	直接将含有异常值的记录删除
视为缺失值	将异常值视为缺失值，利用缺失值处理的方法进行处理
平均值修正	可用前后两个观测的平均值修正该异常值
不处理	直接在具有异常值的数据上进行挖掘建模

4.什么是数据规约？如何进行数据规约

在大数据集上进行复杂的数据分析和挖掘需要很长的时间，数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率

数据规约的意义在于：

-  降低无效、错误数据对建模的影响，提高建模的准确性1

少量且具有代表性的数据将大幅缩减数据挖掘所需的时间
降低储存数据的成本

数据规约分为属性规约和数值规约

属性规约常用的方法

属性规约方法	方法描述	方法解析
合并属性	将一些旧属性合为新属性	初始属性集：{A1,A2,A3,B1,B2,C} {A1,A2,A3} ——>A {B1,B2} ——>B ---->规约后属性集：{A,B,C}
逐步向前选择	从一个空属性集开始，每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止	初始属性集：{A1,A2,A3,A4,A5,A6} {} —>{A1} —>{A1,A4} ---->约束后属性集：{A1,A4,A6}
逐步向后选择	从一个空属性集开始，每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去，直到无法选择出最差属性为止或满足一定阈值约束为止	初始属性集：{A1,A2,A3,A4,A5,A6} —>{A1,A3,A4,A5,A6}—>{A1,A4,A5,A6} ---->约束后属性集：{A1,A4,A6}
决策数归纳	利用决策树的归纳方法对初始数据进行分类归纳学习，获得一个初始决策树，所有没有出现在这个决策树上的属性均可认为是无关属性，因此将这些属性从初始集合中删除，就可以获得一个较优的属性子集	初始属性集：{A1,A2,A3,A4,A5,A6} ---->规约后属性集：{A1,A4,A6}
主成分分析	用较少的变量去解释原始数据中的大部分变量，即将许多相关性很高的变量转换为彼此相互独立或并不相关的变量

数值规约

数值规约指通过选择代替的、较小的数据来减少数据量，包括有参数方法和无参数方法两类。有参数方法是使用一个模型来评估数据，只需存放参数，而不需要存放实际数据，例如回归(线性回归和多元回归)和对数线性模型（近似离散属性集中的多维概率分布）。无参数方法就需要存放实际数据，例如：直方图、聚类、抽样（采样）

直方图
直方图使用分箱来近似数据分布，是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不相交的子集或桶。如果每个桶只代表单个属性值/频率对，则该桶称为单桶。通常，桶表示给定属性的一个连续区间。例如：
聚类
聚类技术将数据元组（即记录，数据表中的一行）视为对象。它将对象划分为簇，使一个簇中的对象相互’相似’，而与其他簇中的对象’相异’。在数据规约中，用数据的簇替换实际数据。该技术的有效性依赖于簇的定义是否符合数据的分布性质。
抽样
抽样也是一种数据规约技术，它用比原始数据小得多的随机样本（子集）表示原始数据集。假定原始数据集D包含N个元组，可以采用抽样方法对D进行抽样。下面介绍常用的抽样方法。
用于数据规约时，抽样最常用来估计聚集查询的结果。在指定的误差范围内，可以确定（使用中心极限定理）估计一个给定的函数所需的样本大小。通常样本的大小s相对于N非常小。而通过简单的增加样本大小，这样的集合可以进一步求精。

s个样本无放回简单随机抽样：从D的N个元组中抽取s个样本（s<N），其中D中任意元组被抽取的概率为1/N，即所有元组的抽取是等可能的。
s个样本有放回简单随机抽样：该方法类似于无放回简单随机抽样，不同在于每次一个元组从D中抽取后，记录它，然后放回原处。
聚类抽样：如果D中的元组放入M个互不相交的簇，则可以得到s个簇的简单随机抽样，其中s<M。例如，数据库中元组通常一次检索一页，这样每页就可以视为一个簇。
分层抽样：如果D划分成互不相交的部分，称作层，则通过对每一层的简单随机抽样就可以得到D的分层样本。例如，可以得到关于顾客数据的一个分层样本，按照顾客的每个年龄创建分层。

参数回归
简单线性模型和对书性模型可以用来近似描述给定的数据。（简单）线性模型对数据建模，使之拟合一条直线。

5. pandas如何进行两个表的合并？内连接、外连接、左连接、右连接查询有什么区别？

pandas提供了一个类似于关系数据库的连接(join)操作方法merge，可以根据一个或多个键将不同DataFrame中的行连接起来，语法：

merge(left, right, how='inner', on=None, left_on=None, right_on=None,
		left_index=False, right_index=False, sort=True,
		suffixes=('_x', '_y'), copy=True, indecator=False)123

left与right：两个不同的Dataframe
how：指的是合并(连接)的方式，有inner(内连接)、left(左外连接)、right(右外连接)、outer(完全外连接)
on：指的是用于连接的列索引名称。必须存在左右两个DataFrame对象中，如果每有指定且其他也未指定则以两个DataFrame的列名交集作为连接键
left_index/right_index：使用左/右侧DataFrame中的行索引作为连接键
以上几个参数使常用到的

不同连接之间的区别

- 内连接(pd.merge(left, right， on='xxx'))：统计重叠的键并，没有重叠的就不记录
- 左连接(pd.merge(left, right, how='left',  on='xxx'))：以左表为主，在右表中找与左表xxx列数据形同的，没有为NaN
- 右连接(pd.merge(left, right, how='right', on='xxx'))：以右表为主，在左表中找与右表xxx列数据形同的，没有为NaN
- 外连接(pd.merge(left, right, how='outer', on='xxx'))：两张表数据全部统计，没有的为NaN1234

6. 为什么要进行数据规范化？标准规范化的计算公式是什么？

数据规范化处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲，数值间的差别可能很大，不进行处理可能会影响到数据到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响，需要进行标准化处理，将数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析。

最大-最小规范化
对原始数据的线性变换，将数值值映射到[0,1]之间，公式：

在这里插入图片描述

零-均值规范化(最常用)
也称标准差标准化，经过处理的数据的均值为0，标准差为1，公式：

在这里插入图片描述

σ为原始数据的标准差

小数定标规范化
通过移动属性值的小数位数，将属性值映射到[-1,1]之间，移动的小数位数取决于属性值绝对值的最大值，公式：

在这里插入图片描述

7. 有哪些缺失值处理方法

处理缺失值的方法可分为3类：删除记录、数据插补和不处理。

数据插补

插补方法	方法描述
均值/中位数/众数插补	根据属性值的类型，用该属性值的平均数/中位数/众数进行插补
使用固定值	将缺失的属性值用一个常量替换
最近临插补	在记录中找到与缺失样本最接近的样本的该属性值插补
回归方法	对带有缺失值的变量，根据已有数据和与其有关的其他变量(因变量)的数据建立拟合模型来预测缺失的属性值
插值法	插值法是利用已知点建立合适的插值函数f(x)，未知值由对应点xi求出的函数值f(xi)近似代替

删除小部分记录如果能达到既定目标，那么删除含有缺失值的记录是最有效的，但是该方法有很大的局限性，这是以减少历史数据来换取数据的完备，会浪费大量资源。尤其是在数据比较少的情况下，删除少量记录可能会严重影响到分析结果的客观性和正确性。

8. 统计量分析中有哪些常见的统计量，列出计算方法。

用统计指标对定量数据进行统计描述，常从集中趋势和离中趋势两个方面进行分析。

平均水平的指标是对个体集中趋势的度量，使用最广泛的是均值和中位数；反应变异程度的指标是对个体离开平均水平的度量，使用较广泛的是标准差(方差)、四分位间距。

1. 集中趋势度量

均值
均值是所有数据的平均值
如果求n个原始观察数据的平均数，计算公式：

在这里插入图片描述
加权均值的公式：

在这里插入图片描述

频率分布表的平均数计算公式：
在这里插入图片描述

作为一个统计量，均值的主要问题是对极端值很敏感。如果数据中存在极端值或者数据是偏态分布的，那么均值就不能很好的度量数据的集中趋势。为了消除少数极端值的影响，可以使用截断均值或者中位数来度量数据的集中趋势。截断均值是去掉高、低极端值之后的平均数。

中位数
中位数时将一组观察值从小到大的顺序排列，位于中间的那个数。
当总数为奇数时：

在这里插入图片描述

为偶数时：

在这里插入图片描述

众数
众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置，更适用于定性变量。众数不具有唯一性。当然，众数一般用于离散型变量而非连续性变量。

2. 离中趋势度量

极差：最大值 - 最小值
标准差：
变异系数
变异系数度量标准差相对于均值的离中趋势，计算公式：

在这里插入图片描述

变异系数主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集的离中趋势。

四分位数间距
四分位数包括上四分位数和下四分位数。将所有数值由大到小排列并分成四等分，处于第一个分割点位置的数值是下四分位数，处于第二个分割点位置的数值是中位数，处于第三个分割点位置的数值是上四分位数。
[外链图片转存中…(img-fNT6LohT-1578120951598)]
变异系数主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集的离中趋势。
四分位数间距
四分位数包括上四分位数和下四分位数。将所有数值由大到小排列并分成四等分，处于第一个分割点位置的数值是下四分位数，处于第二个分割点位置的数值是中位数，处于第三个分割点位置的数值是上四分位数。
四分位数间距，是上四分位数于下四分位数之差，其间包含了全部观察值的一半。其值越大，说明数据的变异程度越大；反之，说明变异程度越小。