维克多阿涛

参数与统计量

参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。由于总体数据通常是未知的,所以参数通常是一个未知的常数。 统计量(statistic) 指根据样本数据统计计算出来的一个量,即样本的某个特征值; 常见的统计量有样本均值、样本标准差(s)、样本 比例(p)等

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

离散系数做到了去量纲来度量离散程度

1,一般而言我们认为,标准差大的数据离散程度大,上图中B组数据的离散程度大于A组吗?实际上不是的,所以标准差没有做到去量纲来度量离散程度 2,而离散系数(标准差除以均值)做到了去量纲来度量离散程度,上图AB两组数据的离散系数是一样的, 3,Z-score标准化也有去量纲观察数据分布的作用,如图所示,Z-score标准化转换后两组数据是一样的,所以那他们的离散程度也是一样的。

533.3333 3 0
  • 关注作者
  • 收藏
维克多阿涛

数学期望与平均数

数学期望是每种可能的结果乘以其对应概率的总和,描述的是总体平均数是样本的结果之和除以样本个数,描述的是样本,总体的平均数就是数学期望频率的不断增大,总的样本数会越来越多,会让平均数不断逼近数学期望。例如掷骰子猜大小游戏,猜对押1赔0.95,猜错押1损失1,每次游戏的数学期望=0.95*0.5-1*0.5=-0.025,这样随着游戏的次数的增多,这个负数不断累积,最后结果也会越来越接近理论上的数学期

0.0011 2 0
  • 关注作者
  • 收藏
从今天开始不熬夜

建立线性回归模型的步骤

1明确需求2采集数据3数据清洗: a.重复值的处理 b.缺失值的处理 c.异常值的处理 d.数据编码的处理其中缺失值的处理可以用均值或众数等描述数据集中趋势的进行填补,异常值中的错误值直接手动删除,离群值的 处理要具体看业务(通常通过画箱线图,或者3西格玛法则判断),数据编码的处理,对于男女这种二分类变量可以用 0和

119.9997 3 0
  • 关注作者
  • 收藏
从今天开始不熬夜

箱形图

箱形图(Box-plot):又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。作用---

159.9986 1 0
  • 关注作者
  • 收藏
维克多阿涛

数据的离散程度

数据的离散程度“一组数据中各个数据与这组数据的中心数值的偏离程度有多大?”这是数据分析所关注的另一个主要问题,由它能从整体上描述这组数据的聚散状态.在统计学中,把一组数据中各个数据与这组数据的中心数值的偏离程度,称为这组数据的离散程度或离中程度.它反映一組数据大小的波动状态,从而描述了这组数据的稳定性.方差是表示离散程度的常用数据代表,它的计算方法是,先计算一组数据的平均数,再计算各数据与所得平均

96.0000 1 0
  • 关注作者
  • 收藏
维克多阿涛

​数据的集中趋势

数据的集中趋势分析数据时,通常关注“一组数据围绕哪个中心数值分布”.这个问题关系到一组数据的平均水平或一般情况,对发现事物的内在规律有重要参考价值,在统计学中,把一组数据向某一中心数值靠拢的情形,称为这组数据的集中趋势,为描述数据的集中趋势,可以选择不同的数据代表.如果从数据取值大小的角度描述,平均数可作为集中趋势的数据代表:如果从数据排列位置的角度描述,中位数可作为集中趋势的数据代表;如果从不同

96.0000 1 0
  • 关注作者
  • 收藏
小风醉

样本方差为什么除以n-1

为了保持标准偏差的无偏性。换句话说,除以(n-1)后,样本标准偏差的期望 = 总体的标准差.是无偏估计。但除以n后,样本标准差的期望 不等于 总体的标准差.是有偏估计。一、在容量为N的总体中,假设我们已经通过随机抽样的方式获得了一份容量为n的样本数据。现在我们有两个任务需要完成:一是归纳样本本身这n个数据之间的分布状况;二是借助该样本来推测总体的分布状况,亦即尝试以局部推测总体、以偏概全。二、出于

56.9332 1 0
  • 关注作者
  • 收藏
从今天开始不熬夜

参数估计

python中的参数估计: pdf:概率密度函数; pmf:离散数据 cdf:累积分布函数,给定临界值,求下尾概率; ppf:累积分布函数的反函数,给定下尾概率,求临界值; sf:生存函数(1-cdf),给定临界值,求上尾概率; isf:生存函数的反函数:给定上尾概率,求临界值

77.4532 3 1
  • 关注作者
  • 收藏
从今天开始不熬夜

最大似然函数推导μ和σ的过程

1.jpg按照教材推导时,很多求导公式忘了,这里细化了部分求导内容.

77.4532 3 2
  • 关注作者
  • 收藏
从今天开始不熬夜

统计学

两个总体参数的区间估计,待估参数不同情况下所服从的分布如图1.jpg

77.4532 3 1
  • 关注作者
  • 收藏
从今天开始不熬夜

统计学

一个总体参数的区间估计中待估参数不同情况下所服从的分布如图2.jpg

77.4532 3 1
  • 关注作者
  • 收藏
DA弯道超车

去量纲/消除量纲/归一化 怎么理解?

为什么要去量纲?进行变量重要性排序(选择对因变量影响最大的自变量)或特征筛选(用于提供后续模型精度等)时,不同的变量单位不同,因此数值差异极大。例如1cm和1kg等。什么是去量纲?数据分析的本质是数值,去量纲就是去除掉单位对数值的影响。使得所有的变量都在同等的水平上,才能“公平”的参与后续处理。常见的去量纲化方法:注:!此处去除掉网上将z-score方法成为标准化,将min-max称为归一化等叫法

0.0000 0 0
  • 关注作者
  • 收藏
小风醉

L1认证考试资料勘误

如图:图中Q1=(750+780)/2

39.3694 1 0
  • 关注作者
  • 收藏
小风醉

总体、总体参数 模拟题勘误

此题正确选项为C ①③阐述无误 ②中总体应为每月送来的用于炸薯条的土豆

39.3694 1 0
  • 关注作者
  • 收藏
从今天开始不熬夜

统计学基础

描述性统计与推断性统计概况图1.jpg2.jpg3.jpg

63.7440 5 0
  • 关注作者
  • 收藏
yuechuchen

相关系数核算

解答过程:

95.1933 1 0
  • 关注作者
  • 收藏
yuechuchen

总体的概念

解答:总体(population)是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,题目中的总体是A,我国所有男性

53.2259 1 0
  • 关注作者
  • 收藏
维克多阿涛

什么是辛普森悖论?

“狡猾”的数据-辛普森悖论先来做个选择感受一下:A医院:1000病人,900活,100死,存活率90%B医院:1000病人,800活,200死,存活率80%你会选择哪家医院?1、 肯定A医院啊,存活率更高2、 犹豫一下B医院,存活率也不低3、 观望观望,具体问题具体分析若你简单选择了A医院,此时你就中了“狡猾”数据的计了为什么?让我们来将重症患者于轻症患者分开看看:A医院:100重症,30

0.0000 2 0
  • 关注作者
  • 收藏
CDA124064

描述不同类型变量离散程度

定序型变量:四分位差数值型变量:平均差、方差、标准差

120.0000 2 0
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
维克多阿涛
2160.0000
02
DA弯道超车
1040.0000
03
185****1226
480.0000
04
AIU人工智能学院
320.0000
05
ermutuxia
320.0000
06
CDA130558
240.0000
07
CDA128983
120.0000
08
CDA118954
120.0000
09
123ghf9
0