数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Jupter Notebook 快捷键操作之合并 & 分离

Shift-M : 合并选中的单元选中两个单元然后 shift + M 进行窗格合并 Ctrl-Shift-- : 分割单元将光标放在分离的位置, Ctrl + Shift + "-" 然后就可以将代码分成两个单元小技巧让敲代码更顺畅

陈革007

2020-07-01

23.0099 4 3

统计学: 时间序列的成分

1.趋势(trend)n 持续向上或持续下降的状态或规律2.季节性(seasonality)也称季节变动(Seasonal fluctuation)时间序列在一年内重复出现的周期性波动3.周期性(cyclity) n 也称循环波动(Cyclical fluctuation) n 围绕长期趋势的一种波浪形或振荡式变动4.随机性(random) n 也称不规则波动(Irregular vari

陈革007

2020-07-01

24.8405 4 1

统计学: 多重共线性的识别

n 如果出现下列情况，暗示存在多重共线性n 模型中各对自变量之间显著相关n 当模型的线性关系检验(F检验)显著时，几乎所有回归系数的t检验却不显著n 回归系数的正负号与预期的相反n 容忍度(tolerance)与方差扩大因子(variance inflation factor，VIF)。l 某个自变量的容忍度等于1减去该自变量为因变量而其他k-1个自变量为预测变量时所得到的线性回归模型

陈革007

2020-07-01

24.6724 3 1

统计学: 相关系数的性质

性质1：r 的取值范围是 [-1,1]n |r|=1，为完全相关l r =1，为完全正相关l r =-1，为完全负正相关n r = 0，不存在线性相关关系n -1£r<0，为负相关n 0

陈革007

2020-06-23

30.3605 8 3

统计学: 什么是方差分析(ANOVA)? ---analysis of variance

检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等研究分类型自变量对数值型因变量的影响一个或多个分类型自变量l 两个或多个 (k 个) 处理水平或分类一个数值型因变量3.有单因素方差分析和双因素方差分析单因素方差分析：涉及一个分类的自变量双因素方差分析：涉及两个分类的自变量

陈革007

2020-06-23

30.3071 7 6

统计学: 什么是P 值? ---P-value

是一个概率值如果原假设为真，P-值是抽样分布中大于或小于样本统计量的概率n 左侧检验时，P-值为曲线上方小于等于检验统计量部分的面积n 右侧检验时，P-值为曲线上方大于等于检验统计量部分的面积 3.被称为观察到的(或实测的)显著性水平n H0 能被拒绝的最小值单侧检验n 若p-值 > a,不拒绝 H0n 若p-值 < a, 拒绝 H0 2. 双侧检验n 若p-值 > a/2,

陈革007

2020-06-23

30.4253 8 1

统计学: 置信区间 --- confidence interval

由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值n 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个n 总体参数以一定的概率落在这一区间的表述是错误的

陈革007

2020-06-23

30.2037 6 0

统计学: 正态分布函数的性质

概率密度函数在x 的上方，即f (x)>0正态曲线的最高点在均值m，它也是分布的中位数和众数正态分布是一个分布族，每一特定正态分布通过均值m和标准差s来区分。 m 决定了图形的中心位置, s决定曲线的平缓程度，即宽度曲线f(x)相对于均值m对称，尾端向两个方向无限延伸，且理论上永远不会与横轴相交正态曲线下的总面积等于1随机变量的概率由曲线下的面积给出

陈革007

2020-06-23

30.1308 5 1

统计学: 切比雪夫不等式 ----Chebyshev’s inequality

如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫不等式，它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”，也就是“所占比例至少是多少”对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值，但不一定是整数Æ对于k=2，3，4，该不等式的含义是:至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%

陈革007

2020-06-22

25.7270 6 1

统计学: 标准分数---standard score

1. 也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)4. 用于对变量的标准化处理5. 计算公式为在后续的python机器学习中,经常会用到对数据做标准化处理, 非常重要哟

陈革007

2020-06-22

25.7270 6 1

统计学 : 自由度--degree of freedom

样本有3个数值，即x1=2，x2=4，x3=9，则 `x = 5。当 `x = 5 确定后，x1，x2和x3有两个数据可以自由取值，另一个则不能自由取值，比如x1=6，x2=7，那么x3则必然取2，而不能取其他值为什么样本方差的自由度为什么是n-1呢？因为在计算离差平方和时，必须先求出样本均值`x ，而`x则是附件给离差平方和的一个约束，因此，计算离差平方和时只有n-1个独立的观测值，而不是n个样

陈革007

2020-06-22

25.5457 3 1

统计学 : 众数、中位数、平均数的特点和应用

1.众数n 不受极端值影响n 具有不惟一性n 数据分布偏斜程度较大且有明显峰值时应用2.中位数n 不受极端值影响n 数据分布偏斜程度较大时应用3.平均数n 易受极端值影响n 数学性质优良n 数据对称分布或接近对称分布时应用

陈革007

2020-06-22

25.5731 5 1

Python: maketrans()方法 translate()方法

maketrans()方法该方法用于创建字符映射的转换表，对于接受两个参数的最简单的调用方式，第一个参数是字符串，表示需要转换的字符，第二个参数也是字符串表示转换的目标。注：两个字符串的长度必须相同，为一一对应的关系。表达式: str.maketrans(intab, outtab)参数: intab -- 字符串中要替代的字符组成的字符串。outtab -- 相应的映射字符的字符串。trans

陈革007

2020-06-22

25.5829 5 0

5种鉴别图表优劣的准则：

一张好的图表应当n 精心设计、有助于洞察问题的实质n 使复杂的观点得到简明、确切、高效的阐述n 能在最短的时间内以最少的笔墨给读者提供最大量的信息n 是多维的n 表述数据的真实情况

陈革007

2020-06-21

28.8715 3 1

Excel: 一张好的图表应包括以下基本特征

n 显示数据n 让读者把注意力集中在图表的内容上，而不是制作图表的程序上n 避免歪曲n 强调数据之间的比较n 服务于一个明确的目的n 有对图表的统计描述和文字说明

陈革007

2020-06-21

28.7568 2 3

数据分析流程---思维导图

来自助教老师早上的分享,加工成导图分享给大家

陈革007

2020-06-20

28.7870 3 2

机器学习: 决策树的剪枝策略及其优缺点

决策树的剪枝方法主要分为两大类：预剪枝和后剪枝两种。预剪枝：当最优分裂点对应的增益值为负值是停止分裂。它的优点是，计算时间上能保证最优；缺点则是将来的某个时刻也许能够获取更高的增益，也就是说它不能保证最优。后剪枝：将决策树增长到它的最大深度，递归的进行剪枝，剪去那些使得增益值为负值的叶子节点。它的优点是能够保证决策树最优；缺点是比预剪枝计算复杂度高很多。

陈革007

2020-06-19

22.7699 6 4

机器学习: 决策树三种数的对比

ID3，C4.5，CART算法对比

陈革007

2020-06-19

22.7408 4 1

机器学习: 聚类什么是DBSCAN

DBSCAN是一种基于密度的空间聚类算法,它不需要定义簇的个数,而是将具有足够高密度的区域划分为簇,并在有噪声的数据中发现任意形状的簇,在此算法中将簇定义为密度相连的点的最大集合

陈革007

2020-06-19

27.4901 3 2

机器学习: 监督学习和无监督学习有什么区别

监督学习：对具有标记的训练样本进行学习，这里，所有的标记是已知的。如：决策树算法、朴素贝叶斯算法、KNN 算法。无监督学习：对没有标记的训练养样本进行学习，目的是为了发现训练集中的结构特征。如聚类算法

陈革007

2020-06-18

28.0292 8 1