热线电话:13121318867

登录
2021-12-29 阅读量: 370
描述性统计相关

一、统计的基本概念

统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学。

1、数据分析步骤:收集数据→处理数据→分析数据→解释数据

1)收集数据的方式:埋点、爬虫、接入、调查问卷

①埋点:比如通过后台设置代码等方式来统计用户的操作

②爬虫:通过代码爬取网站中的数据。

③接入:通过不同的系统中取数。

【扩展:如何实现企业数据仓库的01(数据治理)?

企业→业务 → 系统 → 表 → 字段 → 标准 → 数据仓库 → 算法

术语表 财务系统 元数据(主键) 合并同类项 数据模型(逻辑) 描述性分析

客户系统 主数据(经营) 指标与维度 推断性分析

生产系统 交易数据(按行增加) 】

2)处理数据的方式:数据清洗、特征工程

①数据清洗:对数据行进行操作

②特征工程:对数据列进行操作(列:字段、变量、特征、维度)

3)分析数据的方式:描述性统计分析、推断性统计分析

①描述性分析:研究数据收集、处理和描述的统计学方法

例:总体规模

②研究如何利用样本数据来通断总体特征的统计学方法

例:

4)解释数据:注意有些数据的解释具有规定的语法

2、数据:

1)数据的形式:结构化数据与非结构化数据

①结构化数据:所有可以用数字来描述的数据

②非结构化数据:不可以通过数字来描述的数据。例:文字男女等

目前非结构化数据的处理方式为将其转化成结构化数据,比如文字处理利用正则表达式→词模型的方式

2)数据的分类

分类方式一:按计量尺度分类:

①分类型数据:对事物进行分类的结果,如人的性别分为男女

特点:不可排序、不可计算

②顺序性数据:对事物类别顺序的测度,如产品分为一二三等

特点:可排序、不可计算

③数值型数据:对事物的精准测度,如身高分为175cm180cm

特点:可排序、可计算

(剩余一种复数型数据,不可排序、可计算,如1+2i2+3i

【数据分析的推荐公众号:领研、paperweekly;推荐网站:arxiv】

分类方式二:按来源不同:直接来源(一手数据)、间接来源(二手数据)

分类方式三:按收集方式不同:观测的数据、实验的数据

【中国国家数据中心(一手数据)https://data.stats.gov.cn/

统计信息网(二手数据)http://www.tjcn.org/ 】

分类方式四:按与时间关系的不同:截面数据、时间序列数据、混合数据(或面板数据)

时间序列数据的分析目前分为两派:ARIMA(按统计学)、LSTM(按深度学习)

处理宏观问题使用ARIMA,如证券股票等

处理微观问题使用LSTM,如某篇文章、某智能机器人等

分类方式五:按概型不同;离散型数据、连续型数据

分类方式六:一种体术的数据:虚拟变量数据

3、总体和样本

1)总体:

2)样本:

二、数据的概括性度量

1、集中趋势的度量

1)分类数据:众数。不受极端值影响,具有不唯一性,数据分布偏斜程度较大且有明显峰值时应用

2)顺序数据:中位数和分位数

①中位数:排序后处于中间位置上的值,不受极端值影响,数据分布偏斜程度较大时应用

②分位数:排序后处于25%75%位置上的值,也可根据业务需要确定其他位置

上分位数:处于75%位置的值

下分位数:处于25%位置的值

3)数值数据:平均数,易受极端值影响,数学性质优良

平方平均数、算术平均数、几何平均数、调和平均数等

每种平均数分为简单平均数和加权平均数

①简单平均数:

样本平均数x:样本平均数会随抽样而改变

总体平均数μ:总体平均数是个定值

【以总体来分析的用希腊字母表示,以样本来分析的用英文字母表示】

②加权平均数:

③几何平均数

同一组数据计算结果:平方≥算术≥几何≥调和,其中所有数据相等时等号成立

重要结论:均值度量的是数据空间中到所有样本点距离的平方和最小的点。

4)众数、中位数、平均数的比较(定距定比变量为数值型)

(注:左偏分布与右偏分布的分布图中均值的位置有可能存在偏差)

2、离散程度的度量

1)异众比率

2)顺序数据:四分位差

对顺序数据离散程度的预测,也成为了内距或四分间距

3)数值型数据:方差和标准差

①极差:一组数据的最大值与最小值之差

②平均差(离差):各变量值与其平均数离差绝对值的平均数

③方差和标准差:

数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。

a.总体方差和标准差:

b.样本方差和标准差:

自由度:

自由度指数据个数与附加给独立的观测值的约束或限制的个数之差(一组数据中可以自由取值的个数)

当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。

如果对n个观测值附加的约束个数为k个,则自由度为n-k。

3、相对位置的度量:标准分数

数据的标准化:

0-1标准化(MinMax):把数据集映射到0-1之间,可消除数据大纲带来的影响

z-score标准化:也成标准化值,对某一个值在一组数据中相对位置的度量。

可用于判断一组数据是否有离群点,用于对变量的标准化处理。

反映了每个数据到均值的差值是标准差的倍数。

切比雪夫不等式(对于任意分布都适用):1-1/k²

(k=3即3倍标准差一般为默认的离群值筛选方式)

单位化:把所有数据点都映射到一个半径为1的标准球面上。

4、相对离散程度:离散系数

离散系数:标准差与其相应的均值之比,表示对数据相对离散程度的测度

消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较

三、偏态与峰态


99.7515
0
关注作者
收藏
评论(0)

发表评论

暂无数据