热线电话:13121318867

登录
2020-07-06 阅读量: 1008
7月6日

人工智能 = 计算机科学 + 统计学
统计学是一门收集,处理,分析,解释数据比从中得出结论的科学.核心:数据.
收集数据-处理数据-分析数据-解释数据.
描述性分析方法
总体规模,对比关系,集中趋势,离散程度,偏态,峰态....
推断性分析方法
估计,假设检验,列联分析,方差分析,相关分析,回归分析,....

数据类型决定方法.
数据两种形式:文字和数字
区分文字和数字:是否可以运算.

将数据按计量尺度不同分
1.分类型数据((1)定义:对事物进行分类的结果(2)特点:数据表现为类别,用文字来表述)--定性数据
2.顺序型数据((1)定义:对事物类别顺序的测度(2)特点:数据表现为类别,用文字来表述.)--定性数据
3.数值型数据((1):对事物的精确度测定)

数据分类
分法 低级 -----------高级
两类 定性 定量
三类 分类 顺序 数值
四类 分类 顺序 定距(例:温度)(不能做除法,数值意义不大,数据之间的距离才有意义)定比

(1)区间(分组的数值型数据) 属于数值型
(2)不同类型数据之间往往是可以进行转换.(高级向低级转换,反之不行)
(3)重要规律:低级数据的2方法高级数据可以用,但高级数据的方法低级数据不可用.

数据其他分类.
按来源分:直接来源,间接来源.
按收集方式分:观测的数据,实验数据
按与时间的关系不同
一种特殊的数据:虚拟变量数据

总体和样本
(1)总体----所有元素的集合.每个元素称为个体.
(2)样本----从总体抽取的一部分元素的集合.

参数和统计量
(1)参数:总体的某种某种特征值(总体均值u,标准差α,总体比例π(评价分层))总体数量用N
(2)统计量:样本的某个特征值.(样本的统计量去估计总体的某个特征)常见:样本均值(x_bar),样本标准差(s),样本比例(p),样本数量用n

变量
描述事物某种特征的概念.如销售额,受教育程度,产品质量等级.

描述性统计分析
一.总体规模的描述 ---总体指标
二.对比关系的描述 ---相对指标
三.集中趋势的描述 ---平均指标
四.离散程度的描述 ---变异指标
五.分布形态的描述 ---偏态与峰态

一:众数
众数是具有不唯一性.
二:分位数
统计里面的上是指向好的意思.

均值(平均数,概率用期望)
算术平均数(定义:数据的和与数据个数之比)(易受极端值的影响,受max的影响>受min的影响,各变量值与均值第离差之和等于零,各变量值与均值的离差平方和最小)

调和平均数(变量值倒数的算术平均数的倒数取)(易受极端值的影响,受min值的影响>受max的影响)(调和平均数总小于算术平均数)
几何平均数()
幂平均数
问题1:平均数有多少种
问题2:到底什么是平均数

增函数,k值越大,平均值越大.算术平均数>几何平均数>调和平均数
(k>0易受极大值影响,K<0易受极小值的影响)几何平均数计算是最精确的

离散程度
1.定义:反应各变量值远离其中心值的程度.
极差(很少用)
平均差(各变量值与其均值离差绝对值的平均数)(离差做减法)
平均差越大,说明值越离散,数学性质较差,实际中应用较少
碰到抵消使用平方.
样本数据才有自由度,总体没有.
自由度=数据总数减去不等价约束条件的个数.(大部分出现一个x_bar会减少一个自由度)

偏态系数 K Pearson 于1895年提出.

正态分布
正态分布是一个神奇的分布(任何分布任何统计量,随着其自由度或样本量的增大,其最终都会服从正态分布.----正态分布是所有分布的终极形态

分布函数默认是用左边

T分布实际上是Z(标准正态分布)小时候的样子.(矮一点,胖一点)(自由度n就是他的年龄,随着年龄的增大,他逐渐变高变瘦,最终变成正态分布)

PQ里面日期表排序,在列工具中选定按列排序

AllEXCEPT与All选项相反,只有AllEXCEPT()里面的才能筛选
ALLSELECT求的是相对占比

19.8337
4
关注作者
收藏
评论(0)

发表评论

暂无数据