统计学-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

CDA持证人阿涛哥

W统计量的含义

W统计量的含义取值范围：W统计量的取值范围在 0 到 1 之间W = 1 表示数据与正态分布完全匹配W 接近 0 表示数据与正态分布偏差极大实际意义：W值越大 → 数据越接近正态分布W值越小 → 数据越偏离正态分布通常认为：W > 0.95 → 数据基本符合正态分布（需结合p值判断）W < 0.90 → 数据明显偏离正态分布

0.0000

0

0

0

关注作者

收藏

CDA持证人阿涛哥

四分位数的应用

四分位数的应用通常是用于描述数据的分布情况和识别异常值。以下是一些常见的应用场景：数据分析：通过计算四分位数，可以了解数据的中心趋势和离散程度。例如，可以使用四分位数来计算中位数、上四分位数和下四分位数，以了解数据的分布情况。箱线图：箱线图是一种常用的数据可视化工具，可以通过四分位数来绘制。箱线图可以显示数据的中位数、上四分位数、下四分位数以及异常值，帮助我们直观地了解数据的分布情况。异常值检测：

0.0000

0

0

0

关注作者

收藏

anqiyqi

GDP月度增长率

美国、芬兰和中国各个国家2018年7月至2023年8月度GDP增长率

0.0000

0

0

0

关注作者

收藏

CDA持证人阿涛哥

CDA模拟题学习笔记之某地区成年女子的血压(以mmHa计) 服从N(110，144)，求该地区成年女性血压在100至120的可能性多大?

问题:某地区成年女子的血压(以mmHa计) 服从N(110，144)，求该地区成年女性血压在100至120的可能性多大 ( (φ(0.83)=0.7967)A 0.676B 0.5C 0.5934D 0.5768解析:根据题目描述，该地区成年女子的血压服从N(110，144)分布。要求计算血压在100至120之间的可能性，可以使用标准正态分布进行计算。首先，需要将血压转化为标准正态分布的值。计算方

0.0000

1

0

0

关注作者

收藏

CDA持证人阿涛哥

CDA模拟题学习笔记之某地区成年女子的血压(以mmHa计) 服从N(110，144)，求该地区成年女性血压在100至120的可能性多大?

问题:某地区成年女子的血压(以mmHa计) 服从N(110，144)，求该地区成年女性血压在100至120的可能性多大 ( (φ(0.83)=0.7967)A 0.676B 0.5C 0.5934D 0.5768解析:根据题目描述，该地区成年女子的血压服从N(110，144)分布。要求计算血压在100至120之间的可能性，可以使用标准正态分布进行计算。首先，需要将血压转化为标准正态分布的值。计算方

0.0000

0

0

0

关注作者

收藏

CDA持证人阿涛哥

CDA数据分析师持证人俱乐部志愿者维克多阿涛技术博客发帖合集部分链接汇总

扫码查看CDA认证考试介绍(CDA俱乐部实践部专属推广码)MySQL1，Mysql彻底卸载干净并重装方法怎么操作? https://www.cda.cn/discuss/post/details/61604bdf977c04705c1273c72，MYSQL安装时,starting the server出现红色叉号. https://www.cda.cn/discuss/pos

0.0000

1

0

0

关注作者

收藏

CDA持证人阿涛哥

CDA学习之关于MySQL建表后批量导入数据的示例说明(以CDA一级考试教材中的emp员工表导入为例)

关于MySQL建表后批量导入数据的示例说明我们以CDA一级考试教材《精益业务数据分析》中的emp员工表导入为例,建立一个数据库,然后创建emp表结构,然后向emp表中批量导入数据(备注:MySQL安装包以及安装视频链接 https://edu.cda.cn/my/course/5013)具体步骤如下: 1,首先创建表结构#1.1 建库:表必须建在某个库里,所以先创建一个名为test99的数据库,执

0.0000

0

0

0

关注作者

收藏

Fred朴华

系数标准误/因变量标准误的问题

对于线性回归流程里的假设检验, belta1的标准误公式在教材上印刷的是下图, 感觉根号下少了一个n分之一(样本容量做底).请大神看一下对不?图1. 自变量系数的标准误公式另外, 因变量Y的标准误公式很不一样,如图2, 求助这个推导过程,有没有什么参考资料可以看. 有什么统计教材推荐吗?(同济大学的概率论和数理统计 , 这个教材涵盖这个知识点不?)如果y(的预估值的标准差, 是来自训练集中

0.0000

0

1

0

关注作者

收藏

CDA持证人阿涛哥

一般来说数据透视表中分析中计算项有什么作用?

在数据透视表中，计算项的作用是对已有的数据字段进行计算和分析，以便获取更多的洞察和信息。以下是数据透视表中计算项的一些常见作用：汇总和聚合数据：可以使用计算项对数据透视表中的字段进行求和、计数、平均值等聚合操作，从而得到更全面的数据总结。计算百分比和比例：通过计算项，可以计算某个字段的百分比或比例，例如计算销售额占总销售额的百分比，或计算某个产品的销售量占总销售量的比例。创建新的指标和度量：计算项

0.0000

0

0

0

关注作者

收藏

CDA持证人阿涛哥

CDA数据分析学习之统计学正态分布经验法则

对于正态分布Y而言1个标准差, 数值分布在（μ-σ，μ+σ)中的概率为0.6826。2个标准差,数值分布在（μ-2σ，μ+2σ)中的概率为0.9545。3个标准差,数值分布在（μ-3σ，μ+3σ)中的概率为0.9973。可以认为，Y的数据取值几乎全部集中在（μ-3σ，μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%。

0.0000

0

0

0

关注作者

收藏

CDA持证人阿涛哥

做中间层设计前需要明确几个重要的点?

在用户画像迭代开发的过程中，初期开发完标签后，通过对标签加工作业的血缘图整理，可以找到使用相同数据源的标签，对这部分标签，可以通过加工中间表缩减每日画像调度作业时间。做中间层设计前需要明确几个重要的点： 1）这个中间层对应的业务场景、业务目标是什么？ 2）业务方有了这份中间层数据以后可以进行哪些维度的分析， ETL时有了这份中间层数据可以减少对哪些数据的重复开发计算？ 3）这个业务场景分析中包含

0.0000

0

0

0

关注作者

收藏

液冷服务器

ChatGPT与深度学习的完美融合：打造智能化推荐系统新时代

PNN | AutoRec | 推荐算法NFM | ChatGPT | 深度学习新技术如ChatGPT、LLM、AIGC等的兴起，使推荐系统拥有更强的学习和预测能力。然而，推荐算法仍然是深度学习推荐系统中不可或缺的关键技术。推荐算法和这些技术应相辅相成，相互补充。推荐算法中的冷启动问题、Explore & Exploit、流行度纠偏、打散重排等问题，都是ChatGPT等技术未考虑的。AutoRec

480.0000

1

0

0

关注作者

收藏

液冷服务器

Stable Diffusion：一种新型的深度学习AIGC模型

潜在扩散模型 | AIGC| Diffusion Model 图片感知压缩 | GAN | Stable Diffusion随着生成型AI技术的能力提升，越来越多的注意力放在了通过AI模型提升研发效率上。业内比较火的AI模型有很多，比如画图神器Midjourney、用途多样的Stable Diffusion，以及OpenAI此前刚刚迭代的DALL-E 2。对于研发团队而言，尽管Midjourney

21.8182

2

0

0

关注作者

收藏

CDA持证人阿涛哥

如果数据量很大，如何推导出因子的决定性变量是哪一个？

在面对大量数据时，可以采用以下方法来推导出因子的决定性变量：相关性分析：对每个变量与因子之间的相关系数进行计算，找出与因子相关系数最高的变量，此变量很可能就是决定性变量。主成分分析：通过主成分分析将大量变量降维，找出对因子影响最大的主成分，从而确定决定性变量。回归分析：对因子和各个变量之间进行回归分析，找出对因子影响最大的变量，从而确定决定性变量。统计显著性检验：通过对各个变量与因子之间的

21.8182

2

0

0

关注作者

收藏

CDA持证人阿涛哥

CDA L1模拟题--某地区成年男子的体重X（kg)服从正态分布N（μ，σ2), 若已知P{X≤70}=0.5，P{X≤60}=0.25.

问题:某地区成年男子的体重X（kg)服从正态分布N（μ，σ2), 若已知P{X≤70}=0.5，P{X≤60}=0.25.（1)求μ与σ各为多少？（2)若在这个地区随机地选出5名成年男子，问其中至少两人体重超过65kg的概率是多少？解答:

0.0000

0

0

0

关注作者

收藏

CDA持证人阿涛哥

标准正态分布φ(1)等于多少? 标准正态分布φ(-1)等于多少?

标准正态分布φ(1)等于多少?答：标准正态分布φ(1)等于0.8413,这个值可以查标准正态分布表获得。标准正态分布φ(-1)等于多少?答：根据分布函数的性质 Φ(-x)=1-Φ(x)Φ(-1)=1-Φ(1)=1-0.8413=0.1586从f(x)图像上看，Φ(x)的值相当于标准正态f(x)曲线一下，x轴曲线以上，区域为（-∞，x）这段的面积。某地区成年男子的体重X（kg)服从正态分布N（μ，σ

480.0000

1

0

0

关注作者

收藏

CDA持证人阿涛哥

参数与统计量

参数是用来描述总体特征的概括性数字度量，它是研究者想要了解的总体的某种特征值。由于总体数据通常是未知的，所以参数通常是一个未知的常数。统计量(statistic) 指根据样本数据统计计算出来的一个量，即样本的某个特征值；常见的统计量有样本均值、样本标准差(s)、样本比例(p)等

0.0000

0

0

0

关注作者

收藏

CDA持证人阿涛哥

离散系数做到了去量纲来度量离散程度

1，一般而言我们认为，标准差大的数据离散程度大，上图中B组数据的离散程度大于A组吗？实际上不是的，所以标准差没有做到去量纲来度量离散程度 2，而离散系数（标准差除以均值）做到了去量纲来度量离散程度，上图AB两组数据的离散系数是一样的， 3，Z-score标准化也有去量纲观察数据分布的作用，如图所示，Z-score标准化转换后两组数据是一样的，所以那他们的离散程度也是一样的。

533.3333

3

0

0

关注作者

收藏

CDA持证人阿涛哥

数学期望与平均数

数学期望是每种可能的结果乘以其对应概率的总和，描述的是总体平均数是样本的结果之和除以样本个数，描述的是样本，总体的平均数就是数学期望频率的不断增大，总的样本数会越来越多，会让平均数不断逼近数学期望。例如掷骰子猜大小游戏，猜对押1赔0.95,猜错押1损失1，每次游戏的数学期望=0.95*0.5-1*0.5=-0.025，这样随着游戏的次数的增多，这个负数不断累积，最后结果也会越来越接近理论上的数学期

0.0011

2

0

0

关注作者

收藏

CDA持证人阿涛哥

CDA 模拟题--计算相关系数的方法--下面5组数据的观察值(x,y)的组合分别为︰(6,6) ·(11,9)、(15 ，12) ·(21，17)·(27﹐16)。(2)计算x与y之间的相关系数

CDAlevel1模拟题--计算相关系数的方法问题答案也可以套用这个相关系数的计算公式计算:

120.0000

1

1

0

关注作者

收藏

123…55>

CDA考试动态

CDA报考指南