描述性统计相关_CDA答疑社区

一、统计的基本概念

统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学。

1、数据分析步骤：收集数据→处理数据→分析数据→解释数据

（1）收集数据的方式：埋点、爬虫、接入、调查问卷

①埋点：比如通过后台设置代码等方式来统计用户的操作

②爬虫：通过代码爬取网站中的数据。

③接入：通过不同的系统中取数。

【扩展：如何实现企业数据仓库的0→1（数据治理）？

企业→业务 → 系统 → 表 → 字段 → 标准 → 数据仓库 → 算法

术语表财务系统元数据(主键) 合并同类项数据模型(逻辑) 描述性分析

客户系统主数据(经营) 指标与维度推断性分析

生产系统交易数据(按行增加) 】

（2）处理数据的方式：数据清洗、特征工程

①数据清洗：对数据行进行操作

②特征工程：对数据列进行操作（列：字段、变量、特征、维度）

（3）分析数据的方式：描述性统计分析、推断性统计分析

①描述性分析：研究数据收集、处理和描述的统计学方法

例：总体规模

②研究如何利用样本数据来通断总体特征的统计学方法

例：

（4）解释数据：注意有些数据的解释具有规定的语法

2、数据：

（1）数据的形式：结构化数据与非结构化数据

①结构化数据：所有可以用数字来描述的数据

②非结构化数据：不可以通过数字来描述的数据。例：文字男女等

目前非结构化数据的处理方式为将其转化成结构化数据，比如文字处理利用正则表达式→词模型的方式

（2）数据的分类

分类方式一：按计量尺度分类：

①分类型数据：对事物进行分类的结果，如人的性别分为男女

特点：不可排序、不可计算

②顺序性数据：对事物类别顺序的测度，如产品分为一二三等

特点：可排序、不可计算

③数值型数据：对事物的精准测度，如身高分为175cm、180cm

特点：可排序、可计算

（剩余一种复数型数据，不可排序、可计算，如1+2i与2+3i）

【数据分析的推荐公众号：领研、paperweekly；推荐网站：arxiv】

分类方式二：按来源不同：直接来源（一手数据）、间接来源（二手数据）

分类方式三：按收集方式不同：观测的数据、实验的数据

【中国国家数据中心（一手数据）https://data.stats.gov.cn/

统计信息网（二手数据）http://www.tjcn.org/ 】

分类方式四：按与时间关系的不同：截面数据、时间序列数据、混合数据（或面板数据）

时间序列数据的分析目前分为两派：ARIMA（按统计学）、LSTM（按深度学习）

处理宏观问题使用ARIMA，如证券股票等

处理微观问题使用LSTM，如某篇文章、某智能机器人等

分类方式五：按概型不同；离散型数据、连续型数据

分类方式六：一种体术的数据：虚拟变量数据

3、总体和样本

（1）总体：

（2）样本：

二、数据的概括性度量

1、集中趋势的度量

（1）分类数据：众数。不受极端值影响，具有不唯一性，数据分布偏斜程度较大且有明显峰值时应用

（2）顺序数据：中位数和分位数

①中位数：排序后处于中间位置上的值，不受极端值影响，数据分布偏斜程度较大时应用

②分位数：排序后处于25%和75%位置上的值，也可根据业务需要确定其他位置

上分位数：处于75%位置的值

下分位数：处于25%位置的值

（3）数值数据：平均数，易受极端值影响，数学性质优良

平方平均数、算术平均数、几何平均数、调和平均数等

每种平均数分为简单平均数和加权平均数

①简单平均数：

样本平均数x：样本平均数会随抽样而改变

总体平均数μ：总体平均数是个定值

【以总体来分析的用希腊字母表示，以样本来分析的用英文字母表示】

②加权平均数：

③几何平均数

同一组数据计算结果：平方≥算术≥几何≥调和，其中所有数据相等时等号成立

重要结论：均值度量的是数据空间中到所有样本点距离的平方和最小的点。

（4）众数、中位数、平均数的比较（定距定比变量为数值型）

（注：左偏分布与右偏分布的分布图中均值的位置有可能存在偏差）

2、离散程度的度量

（1）异众比率

（2）顺序数据：四分位差

对顺序数据离散程度的预测，也成为了内距或四分间距

（3）数值型数据：方差和标准差

①极差：一组数据的最大值与最小值之差

②平均差（离差）：各变量值与其平均数离差绝对值的平均数

③方差和标准差：

数据离散程度的最常用测度值，反映了各变量值与均值的平均差异。

a.总体方差和标准差：

b.样本方差和标准差：

自由度：

自由度指数据个数与附加给独立的观测值的约束或限制的个数之差（一组数据中可以自由取值的个数）

当样本数据的个数为n时，若样本平均数确定后，则附加给n个观测值的约束个数就是1个，因此只有n-1个数据可以自由取值，其中必有一个数据不能自由取值。

如果对n个观测值附加的约束个数为k个，则自由度为n-k。

3、相对位置的度量：标准分数

数据的标准化：

0-1标准化（MinMax）：把数据集映射到0-1之间，可消除数据大纲带来的影响

z-score标准化：也成标准化值，对某一个值在一组数据中相对位置的度量。

可用于判断一组数据是否有离群点，用于对变量的标准化处理。

反映了每个数据到均值的差值是标准差的倍数。

切比雪夫不等式（对于任意分布都适用）：1-1/k²

（k=3即3倍标准差一般为默认的离群值筛选方式）

单位化：把所有数据点都映射到一个半径为1的标准球面上。

4、相对离散程度：离散系数

离散系数：标准差与其相应的均值之比，表示对数据相对离散程度的测度

消除了数据水平高低和计量单位的影响，用于对不同组别数据离散程度的比较

三、偏态与峰态