一、统计的基本概念
统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学。
1、数据分析步骤:收集数据→处理数据→分析数据→解释数据
(1)收集数据的方式:埋点、爬虫、接入、调查问卷
①埋点:比如通过后台设置代码等方式来统计用户的操作
②爬虫:通过代码爬取网站中的数据。
③接入:通过不同的系统中取数。
【扩展:如何实现企业数据仓库的0→1(数据治理)?
企业→业务 → 系统 → 表 → 字段 → 标准 → 数据仓库 → 算法
术语表 财务系统 元数据(主键) 合并同类项 数据模型(逻辑) 描述性分析
客户系统 主数据(经营) 指标与维度 推断性分析
生产系统 交易数据(按行增加) 】
(2)处理数据的方式:数据清洗、特征工程
①数据清洗:对数据行进行操作
②特征工程:对数据列进行操作(列:字段、变量、特征、维度)
(3)分析数据的方式:描述性统计分析、推断性统计分析
①描述性分析:研究数据收集、处理和描述的统计学方法
例:总体规模
②研究如何利用样本数据来通断总体特征的统计学方法
例:
(4)解释数据:注意有些数据的解释具有规定的语法
2、数据:
(1)数据的形式:结构化数据与非结构化数据
①结构化数据:所有可以用数字来描述的数据
②非结构化数据:不可以通过数字来描述的数据。例:文字男女等
目前非结构化数据的处理方式为将其转化成结构化数据,比如文字处理利用正则表达式→词模型的方式
(2)数据的分类
分类方式一:按计量尺度分类:
①分类型数据:对事物进行分类的结果,如人的性别分为男女
特点:不可排序、不可计算
②顺序性数据:对事物类别顺序的测度,如产品分为一二三等
特点:可排序、不可计算
③数值型数据:对事物的精准测度,如身高分为175cm、180cm
特点:可排序、可计算
(剩余一种复数型数据,不可排序、可计算,如1+2i与2+3i)
【数据分析的推荐公众号:领研、paperweekly;推荐网站:arxiv】
分类方式二:按来源不同:直接来源(一手数据)、间接来源(二手数据)
分类方式三:按收集方式不同:观测的数据、实验的数据
【中国国家数据中心(一手数据)https://data.stats.gov.cn/
统计信息网(二手数据)http://www.tjcn.org/ 】
分类方式四:按与时间关系的不同:截面数据、时间序列数据、混合数据(或面板数据)
时间序列数据的分析目前分为两派:ARIMA(按统计学)、LSTM(按深度学习)
处理宏观问题使用ARIMA,如证券股票等
处理微观问题使用LSTM,如某篇文章、某智能机器人等
分类方式五:按概型不同;离散型数据、连续型数据
分类方式六:一种体术的数据:虚拟变量数据
3、总体和样本
(1)总体:
(2)样本:
二、数据的概括性度量
1、集中趋势的度量
(1)分类数据:众数。不受极端值影响,具有不唯一性,数据分布偏斜程度较大且有明显峰值时应用
(2)顺序数据:中位数和分位数
①中位数:排序后处于中间位置上的值,不受极端值影响,数据分布偏斜程度较大时应用
②分位数:排序后处于25%和75%位置上的值,也可根据业务需要确定其他位置
上分位数:处于75%位置的值
下分位数:处于25%位置的值
(3)数值数据:平均数,易受极端值影响,数学性质优良
平方平均数、算术平均数、几何平均数、调和平均数等
每种平均数分为简单平均数和加权平均数
①简单平均数:
样本平均数x:样本平均数会随抽样而改变
总体平均数μ:总体平均数是个定值
【以总体来分析的用希腊字母表示,以样本来分析的用英文字母表示】
②加权平均数:
③几何平均数
同一组数据计算结果:平方≥算术≥几何≥调和,其中所有数据相等时等号成立
重要结论:均值度量的是数据空间中到所有样本点距离的平方和最小的点。
(4)众数、中位数、平均数的比较(定距定比变量为数值型)
(注:左偏分布与右偏分布的分布图中均值的位置有可能存在偏差)
2、离散程度的度量
(1)异众比率
(2)顺序数据:四分位差
对顺序数据离散程度的预测,也成为了内距或四分间距
(3)数值型数据:方差和标准差
①极差:一组数据的最大值与最小值之差
②平均差(离差):各变量值与其平均数离差绝对值的平均数
③方差和标准差:
数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。
a.总体方差和标准差:
b.样本方差和标准差:
自由度:
自由度指数据个数与附加给独立的观测值的约束或限制的个数之差(一组数据中可以自由取值的个数)
当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。
如果对n个观测值附加的约束个数为k个,则自由度为n-k。
3、相对位置的度量:标准分数
数据的标准化:
0-1标准化(MinMax):把数据集映射到0-1之间,可消除数据大纲带来的影响
z-score标准化:也成标准化值,对某一个值在一组数据中相对位置的度量。
可用于判断一组数据是否有离群点,用于对变量的标准化处理。
反映了每个数据到均值的差值是标准差的倍数。
切比雪夫不等式(对于任意分布都适用):1-1/k²
(k=3即3倍标准差一般为默认的离群值筛选方式)
单位化:把所有数据点都映射到一个半径为1的标准球面上。
4、相对离散程度:离散系数
离散系数:标准差与其相应的均值之比,表示对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较
三、偏态与峰态








暂无数据