维克多阿涛

如果数据量很大,如何推导出因子的决定性变量是哪一个?

在面对大量数据时,可以采用以下方法来推导出因子的决定性变量:相关性分析: 对每个变量与因子之间的相关系数进行计算,找出与因子相关系数最高的变量,此变量很可能就是决定性变量。主成分分析: 通过主成分分析将大量变量降维,找出对因子影响最大的主成分,从而确定决定性变量。回归分析: 对因子和各个变量之间进行回归分析,找出对因子影响最大的变量,从而确定决定性变量。统计显著性检验: 通过对各个变量与因子之间的

21.8182 1 0
  • 关注作者
  • 收藏
维克多阿涛

CDA L1模拟题--某地区成年男子的体重X(kg)服从正态分布N(μ,σ2), 若已知P{X≤70}=0.5,P{X≤60}=0.25.

问题:某地区成年男子的体重X(kg)服从正态分布N(μ,σ2), 若已知P{X≤70}=0.5,P{X≤60}=0.25.(1)求μ与σ各为多少?(2)若在这个地区随机地选出5名成年男子,问其中至少两人体重超过65kg的概率是多少?解答:

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

标准正态分布φ(1)等于多少? 标准正态分布φ(-1)等于多少?

标准正态分布φ(1)等于多少?答:标准正态分布φ(1)等于0.8413,这个值可以查标准正态分布表获得。标准正态分布φ(-1)等于多少?答:根据分布函数的性质 Φ(-x)=1-Φ(x)Φ(-1)=1-Φ(1)=1-0.8413=0.1586从f(x)图像上看,Φ(x)的值相当于标准正态f(x)曲线一下,x轴曲线以上,区域为(-∞,x)这段的面积。某地区成年男子的体重X(kg)服从正态分布N(μ,σ

480.0000 1 0
  • 关注作者
  • 收藏
维克多阿涛

参数与统计量

参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。由于总体数据通常是未知的,所以参数通常是一个未知的常数。 统计量(statistic) 指根据样本数据统计计算出来的一个量,即样本的某个特征值; 常见的统计量有样本均值、样本标准差(s)、样本 比例(p)等

0.0000 0 0
  • 关注作者
  • 收藏
维克多阿涛

离散系数做到了去量纲来度量离散程度

1,一般而言我们认为,标准差大的数据离散程度大,上图中B组数据的离散程度大于A组吗?实际上不是的,所以标准差没有做到去量纲来度量离散程度 2,而离散系数(标准差除以均值)做到了去量纲来度量离散程度,上图AB两组数据的离散系数是一样的, 3,Z-score标准化也有去量纲观察数据分布的作用,如图所示,Z-score标准化转换后两组数据是一样的,所以那他们的离散程度也是一样的。

533.3333 3 0
  • 关注作者
  • 收藏
维克多阿涛

数学期望与平均数

数学期望是每种可能的结果乘以其对应概率的总和,描述的是总体平均数是样本的结果之和除以样本个数,描述的是样本,总体的平均数就是数学期望频率的不断增大,总的样本数会越来越多,会让平均数不断逼近数学期望。例如掷骰子猜大小游戏,猜对押1赔0.95,猜错押1损失1,每次游戏的数学期望=0.95*0.5-1*0.5=-0.025,这样随着游戏的次数的增多,这个负数不断累积,最后结果也会越来越接近理论上的数学期

0.0011 2 0
  • 关注作者
  • 收藏
维克多阿涛

CDA level1模拟题--计算相关系数的方法

CDAlevel1模拟题--计算相关系数的方法问题答案也可以套用这个相关系数的计算公式计算:

120.0000 1 0
  • 关注作者
  • 收藏
从今天开始不熬夜

建立线性回归模型的步骤

1明确需求2采集数据3数据清洗: a.重复值的处理 b.缺失值的处理 c.异常值的处理 d.数据编码的处理其中缺失值的处理可以用均值或众数等描述数据集中趋势的进行填补,异常值中的错误值直接手动删除,离群值的 处理要具体看业务(通常通过画箱线图,或者3西格玛法则判断),数据编码的处理,对于男女这种二分类变量可以用 0和

119.9997 3 0
  • 关注作者
  • 收藏
从今天开始不熬夜

箱形图

箱形图(Box-plot):又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。作用---

159.9986 1 0
  • 关注作者
  • 收藏
维克多阿涛

CDA L1 数据的离散程度

数据的离散程度“一组数据中各个数据与这组数据的中心数值的偏离程度有多大?”这是数据分析所关注的另一个主要问题,由它能从整体上描述这组数据的聚散状态.在统计学中,把一组数据中各个数据与这组数据的中心数值的偏离程度,称为这组数据的离散程度或离中程度.它反映一組数据大小的波动状态,从而描述了这组数据的稳定性.方差是表示离散程度的常用数据代表,它的计算方法是,先计算一组数据的平均数,再计算各数据与所得平均

96.0000 1 0
  • 关注作者
  • 收藏
维克多阿涛

​CDA L1 数据的集中趋势

数据的集中趋势分析数据时,通常关注“一组数据围绕哪个中心数值分布”.这个问题关系到一组数据的平均水平或一般情况,对发现事物的内在规律有重要参考价值,在统计学中,把一组数据向某一中心数值靠拢的情形,称为这组数据的集中趋势,为描述数据的集中趋势,可以选择不同的数据代表.如果从数据取值大小的角度描述,平均数可作为集中趋势的数据代表:如果从数据排列位置的角度描述,中位数可作为集中趋势的数据代表;如果从不同

96.0000 1 0
  • 关注作者
  • 收藏
小风醉

样本方差为什么除以n-1

为了保持标准偏差的无偏性。换句话说,除以(n-1)后,样本标准偏差的期望 = 总体的标准差.是无偏估计。但除以n后,样本标准差的期望 不等于 总体的标准差.是有偏估计。一、在容量为N的总体中,假设我们已经通过随机抽样的方式获得了一份容量为n的样本数据。现在我们有两个任务需要完成:一是归纳样本本身这n个数据之间的分布状况;二是借助该样本来推测总体的分布状况,亦即尝试以局部推测总体、以偏概全。二、出于

56.9332 1 0
  • 关注作者
  • 收藏
从今天开始不熬夜

参数估计

python中的参数估计: pdf:概率密度函数; pmf:离散数据 cdf:累积分布函数,给定临界值,求下尾概率; ppf:累积分布函数的反函数,给定下尾概率,求临界值; sf:生存函数(1-cdf),给定临界值,求上尾概率; isf:生存函数的反函数:给定上尾概率,求临界值

77.4532 3 1
  • 关注作者
  • 收藏
从今天开始不熬夜

最大似然函数推导μ和σ的过程

1.jpg按照教材推导时,很多求导公式忘了,这里细化了部分求导内容.

77.4532 3 2
  • 关注作者
  • 收藏
从今天开始不熬夜

统计学

两个总体参数的区间估计,待估参数不同情况下所服从的分布如图1.jpg

77.4532 3 1
  • 关注作者
  • 收藏
从今天开始不熬夜

统计学

一个总体参数的区间估计中待估参数不同情况下所服从的分布如图2.jpg

77.4532 3 1
  • 关注作者
  • 收藏
DA弯道超车

去量纲/消除量纲/归一化 怎么理解?

为什么要去量纲?进行变量重要性排序(选择对因变量影响最大的自变量)或特征筛选(用于提供后续模型精度等)时,不同的变量单位不同,因此数值差异极大。例如1cm和1kg等。什么是去量纲?数据分析的本质是数值,去量纲就是去除掉单位对数值的影响。使得所有的变量都在同等的水平上,才能“公平”的参与后续处理。常见的去量纲化方法:注:!此处去除掉网上将z-score方法成为标准化,将min-max称为归一化等叫法

0.0000 0 0
  • 关注作者
  • 收藏
小风醉

L1认证考试资料勘误

如图:图中Q1=(750+780)/2

39.3694 1 0
  • 关注作者
  • 收藏
小风醉

总体、总体参数 模拟题勘误

此题正确选项为C ①③阐述无误 ②中总体应为每月送来的用于炸薯条的土豆

39.3694 1 0
  • 关注作者
  • 收藏
从今天开始不熬夜

统计学基础

描述性统计与推断性统计概况图1.jpg2.jpg3.jpg

63.7440 5 0
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励
01
维克多阿涛
945.4548
02
ermutuxia
643.6364
03
CDA118057
320.0010
04
newbbs
240.0000
05
hunter.Z
141.8182
06
液冷服务器
109.0910