数据科学专业问答社区，好文章，一字千金--CDA答疑社区

方差和期望的关系？

方差是衡量源数据和期望值相差的度量值。统计描述中，方差用来计算每一个变量（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。在概率论和统计学中，数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。是最基本的数学特征之一。它反映随机变量平均取值的大小。

zxq997

2019-06-18

0.0000 0 0

过拟合的常用处理方式

1.增加训练数据数过拟合是由于模型学习到了数据的一些噪声特征导致，增加训练数据的量能够减少噪声的影响，让模型更多地学习数据的一般特征。利用现有数据进行扩充或许也是一个好办法。例如在图像识别中，如果没有足够的图片训练，可以把已有的图片进行旋转，拉伸，镜像，对称等，这样就可以把数据量扩大好几倍而不需要额外补充数据。一般有以下方法：从数据源头采集更多数据复制原有数据并加上随机噪声重采样根据当

zxq997

2019-06-18

0.0000 0 0

行列式与矩阵区别？

行列式与矩阵是两个东西，他们区别是： 1. 矩阵是一个表格，行数和列数可以不一样；而行列式是一个数，且行数必须等于列数。只有方阵才可以定义它的行列式，而对于长方阵不能定义它的行列式。 2. 两个矩阵相等是指对应元素都相等；两个行列式相等不要求对应元素都相等，甚至阶数也可以不一样，只要运算代数和的结果一样就行了。 3.两矩阵相加是将各对应元素相加；两行列式相加，是将运算结果相加，在特殊情况下(

zxq997

2019-06-18

0.0000 0 1

什么是点乘？

点乘是向量的内积叉乘是向量的外积点乘，也叫数量积。结果是一个向量在另一个向量方向上投影的长度，是一个标量。叉乘，也叫向量积。结果是一个和已有两个向量都垂直的向量。

zxq997

2019-06-18

0.0000 0 2

什么是回归

回归的定义：当存在显着的线性相关时，可以使用线来估计自变量的某些值的因变量的值。回归方程的适用范围：当存在显着的线性相关性时。也就是说，当你在相关假设检验中拒绝rho = 0的零假设时。在估计中使用的自变量的值接近原始值。也就是说，当x为200时，你不应该使用在10和20之间使用x得到的回归方程来估计y。回归方程不应与不同的人群一起使用。也就是说，如果x是男性的身高，而y是男性的体重，

zxq997

2019-06-18

0.0000 0 2

逻辑回归基本形式及概述

在统计学中，逻辑模型（或logit模型）是一种广泛使用的统计模型，在其基本形式中，使用逻辑函数来模拟二进制因变量 ; 存在更复杂的扩展。在回归分析中，逻辑回归（或logit回归）是估计逻辑模型的参数; 它是二项式回归的一种形式。在数学上，二元逻辑模型具有一个具有两个可能值的因变量，例如通过/失败，赢/输，活/死或健康/生病; 这些由指示符变量表示，其中两个值标记为“0”和“1”。

zxq997

2019-06-18

0.0000 0 2

对似然比检验和Wald测试的理解

似然比检验似然比检验提供了用于比较一个模型（例如，完整模型）下的数据的可能性与另一个更受限制的模型（例如，截距模型）下的数据的可能性的手段。 a 其中' p ' 是逻辑模型预测概率。下一步是计算这两个对数似然之间的差异。 a 两个可能性之间的差异乘以因子2，以便使用标准显着性水平（Chi2检验）评估统计显着性。测试的自由度将等于模型下估计的参数数量的差异（例如，完整和截距）。 Wald

zxq997

2019-06-18

0.0000 0 7

import pandas as pd import numpy as np import matplotlib.pyplot as plt s=pd.Series([1,3,5,np.nan,6,8]) dates=pd.date_range('20130101',periods=6) df=pd.DataFrame(np.random.rand(6,4),index=dates,columns

zxq997

2019-06-18

0.0000 0 3

x与y相关性t太低怎么办？

问题描述：相关系数太低，还有研究的意义吗？还能建模吗?还是要做些什么处理再建模？ a 答案解析：这个模型y与x都不显著相关，是没有意义的。原因应该是这份数据的样本量太少了，可以采用自抽样增加样本数至1000再看显著性。

zxq997

2019-06-18

0.0000 0 3

数据库中的完整性约束

约束的定义：通过对表中的一个或多个列增加限制条件来控制表中数据的正确性和完整性。根据增加约束的对象，约束可以分为：列级约束：对表中的一个列增加约束条件。表级约束：同时对表中的两个或两个以上的列增加约束条件。

zxq997

2019-06-14

0.0000 0 1

叶子节点的构造

分类型决策树在叶子节点上的决策规则是少数服从多数，在一个叶子节点上，如果某一类标签所占的比例较大，那所有进入这个叶子节点的样本都回被认为是这一类别。距离来说，如果90%根据规则进入叶子节点的样本都是类别0（叶子比较纯），那新进入叶子节点的测试样本的类别也很有可能是0。但是，如果51%的样本是0，49%的样本是1（极端情况），叶子节点还是会被认为是0类叶子节点，但此时此刻进入这个叶子的测试样本

zxq997

2019-06-13

28.9848 1 4

决策树的结点不纯度

ID3算法原型见于J.R Quinlan的博士论文，是基础理论较为完善，使用较为广泛的决策树模型，在此基础上J.R Quinlan进行优化后，陆续推出了C4.5和C5.0决策树算法，后二者现已称为当前最流行的决策树算法，我们先从ID3 开始讲起，再讨论如何从ID3逐渐优化至C4.5。为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，而衡量这个“最佳”的指标叫做“不纯度”。不纯度

zxq997

2019-06-13

0.0000 0 1

决策树修改局部最优条件

在C4.5中，首先通过引入分支度（IV：Information Value）（在《数据挖掘导论》一书中被称为划分信息度）的概念，来对信息增益的计算方法进行修正，简而言之，就是在信息增益计算方法的子节点总信息熵的计算方法中添加了随着分类变量水平的惩罚项。而分支度的计算公式仍然是基于熵的算法，只是将信息熵计算公式中的 (即某类别样例占总样例数)改成了，即某子节点的总样本数占父节点总样本数的比例

zxq997

2019-06-13

0.0000 0 3

二元通用函数

二元通用函数有些非常有趣的聚合功能，这些聚合可以直接在对象上计算。例如，如果我们希望用一个特定的运算 reduce 一个数组，那么可以用任何通用函数的 reduce 方法。一个 reduce 方法会对给定的元素和操作重复执行，直至得到单个的结果。例如，对 add 通用函数调用 reduce 方法会返回数组中所有元素的和： In[26]: x = np.arange(1, 6) np.add.

zxq997

2019-06-13

0.0000 0 1

指定输出

在进行大量运算时，有时候指定一个用于存放运算结果的数组是非常有用的。不同于创建临时数组，你可以用这个特性将计算结果直接写入到你期望的存储位置。所有的通用函数都可以通过 out 参数来指定计算结果的存放位置： In[24]: x = np.arange(5) y = np.empty(5) np.multiply(x, 10, out=y) print(y) [ 0. 10. 20. 30. 4

zxq997

2019-06-13

28.9848 1 1

scipy.special

子模块 scipy.special 。如果你希望对你的数据进行一些更晦涩的数学计算， scipy.special 可能包含了你需要的计算函数。这些函数能列一个长长的列表，下面的代码片段展示了一些可能在统计学中用到的函数： In[21]: from scipy import special In[22]: # Gamma函数（广义阶乘，generalized factorials）和相关函数 x

zxq997

2019-06-13

119.8891 1 1

NumPy指数运算

NumPy 中另一个常用的运算通用函数是指数运算： In[18]: x = [1, 2, 3] print("x =", x) print("e^x =", np.exp(x)) print("2^x =", np.exp2(x)) print("3^x =", np.power(3, x)) x = [1, 2, 3] e^x = [ 2.71828183 7.3890561 20.085536

zxq997

2019-06-13

0.0000 0 3

NumPy 三角函数

NumPy 提供了大量好用的通用函数，其中对于数据科学家最有用的就是三角函数。首先定义一个角度数组： In[15]: theta = np.linspace(0, np.pi, 3) 现在可以对这些值进行一些三角函数计算： In[16]: print("theta = ", theta) print("sin(theta) = ", np.sin(theta)) print("cos(theta

zxq997

2019-06-13

0.0000 0 1

多维数组通用函数

通用函数并不仅限于一维数组的运算，它们也可以进行多维数组的运算： In[6]: x = np.arange(9).reshape((3, 3)) 2 ** x Out[6]: array([[ 1, 2, 4], [ 8, 16, 32], [ 64, 128, 256]]) 通过通用函数用向量的方式进行计算几乎总比用 Python 循环实现的计算更加有效，尤其是当数组很大时。只要你看到 Pyt

zxq997

2019-06-13

28.9848 1 0

NumPy通用函数

NumPy 中的向量操作是通过通用函数实现的。通用函数的主要目的是对 NumPy 数组中的值执行更快的重复操作。它非常灵活，前面我们看过了标量和数组的运算，但是也可以对两个数组进行运算： In[5]: np.arange(5) / np.arange(1, 6) Out[5]: array([ 0. , 0.5 , 0.66666667, 0.75 , 0.8 ])

zxq997

2019-06-13

0.0000 0 2