如果样本是大样本,就可以不用管总体是什么分布了,因为大样本情况下,xbar就服从正态分布了小样本服从t分布,小样本一般指n<30
开花结果02
2020-06-21
核(Kernel):所有被线性变换变成零向量的向量组成的集合,称为该变换的“核”,即:在几何上,核就是变换后落在原点的向量的集合值域(Range):
开花结果02
2020-06-21
在代数学中,n阶行列式表示一个n次多项式,这是行列式的基础定义。在线性变换中,行列式描述的是空间被拉伸/压缩的比例。以2维空间为例:既然线性变换是改变基组,那么我们只需要找到一个指标来度量2个基向量围成的矩形面积 增大或缩小的比例。该指标就是行列式的值。记作det() ,或| |.只有行列数相等的方阵才有行列式。若矩阵的行列式的值为负,则空间发生翻转,即坐标轴两两左右手定则发生变化。若行列式的值为
开花结果02
2020-06-21
经验法则表明,如果数据是对称分布的约有68%的数据落在均值加减1个标准差的范围内约有95%的数据落在均值加减2个标准差的范围内约有99%的数据落在均值加减3个标准差的范围内 而如果数据不是对称分布的,那么上述经验法则就不适用了。这时候就需要用到切比雪夫不等式: 例如,对于 该不等式的含义是至少有75%的数据落在均值加减2个标准差的范围内至少有89%的数据落在均值加减3个标准差的范围内至少有94%的
开花结果02
2020-06-20
中心极限定理:从均值为μ,方差为的-一个任意总体中抽取容量为n的样本。随着样本数n的增大,样本均值的抽样分布会收敛到均值为μ,方差为/n的正态分布。如下图:
开花结果02
2020-06-20
正态分布是一个神奇的分布:任何分布、任何统计量随着其自由度或样本量的增大,其最终都会服从正态分布。——正态分布是所有分布的终极形态在自然界中,绝大多数事物都是服从一种具有钟形曲线的概率分布,称之为正态分布。正态分布的密度函数: 如果我们把正态分布的数据做标准化处理,就得到了标准正态分布,即 的正态分布正态分布是对称的,因此之前看到的经验法则当然适用,如下图
开花结果02
2020-06-19
自由度:指一组数据中可以自由取值的变量的个数当样本个数为n时,若样本均值给定了,则施加给这n各观测值的约束个数就是1个。因此只有n-1个数据可以自由取值。如果施加k个约束,则自由度为n-k从理论上讲,调整自由度是为了保证估计量的无偏性。
开花结果02
2020-06-19
岭回归是一种改良的最小二乘估计法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于普通的最小二乘法OLS。本质是在自变量信息矩阵的主对角线元素上人为地加入一个非负因子。当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计
开花结果02
2020-06-19
按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。截面数据(cross- sectional data)是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况。比如,2010 年我国各地区的国内生产总值就是截面数据。时间序列数据(time series data)是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描
开花结果02
2020-06-19
切片器前面有空白原因: 1.数据选择范围不对,数据类型不对 2.建模时,表连接有误 需要检查这两方面的原因,尤其是表连接是否正确在这一点容易忽略
开花结果02
2020-06-17
第一种写法: 第二种写法: update salary set sex = replace('mf',sex,"") where sex != "" repalce 函数的使用方法:
开花结果02
2020-06-17
题目描述:有一张 seat 座位表,平时用来储存学生名字和与他们相对应的座位 id。 其中纵列的 id 是连续递增的 想改变相邻俩学生的座位,写一段sql代码实现 解题思路:只有一张表,想要改变表的内容,这就需要进行自连接,然后判断id的奇偶性,如果是奇数,则返回id+1的姓名,如果id是偶数,则返回id-1的姓名 代码: select a.id,ifnull(b.name,a.nam
开花结果02
2020-06-17
不同类型的数据一定要用不同的方法进行分析 第一种: 离散型:全体自然数 连续型数据:全体实数 稠密性数据:全体有理数 区别 区别一:连续型可以无限细分,离散型不可以无限细分 区别二:连续型数据取到任何一个样本值的概率都是0 第二种分类 横截面数据:在一个时间点或时间段内取到的所有数据 时间序列数据:考虑时间属性的时候,比如债券,股票,默认一次只讨论一个序列 面板数据:既有时间属性,又有空间属
开花结果02
2020-06-16