一、相关性检验

列联表和卡方检验分类变量之间的相关性一般可以采用列联表分析或卡方检验的方法来进行验证。列联表是两个分类变量的分类水平之间形成的交叉频数表，通过计算行百分比或列百分比，对实际频率和期望频率进行对比分析，例如一个典型的列联表如下：

对于表中频数、期望频数、行/列百分比的解读方法要熟练掌握。比如98代表的是头发颜色为金色，眼睛颜色为深色的样本数量。而355.2则是期望的数量。6.7%是行百分比，也就是在所有头发颜色为金色的样本中，眼睛颜色为深色的占比。

列联表是一种比较简单的描述性统计方法，而卡方检验则可以通过量化的方法对两个分类变量的相关性进行检验，卡方统计量如下：

二、逻辑回归

在掌握了列联表分析和卡方检验的基础上，可以学习使用逻辑回归对分类变量进行预测。逻辑回归主要处理的就是分类问题。事实上，也可以把他看作是线性回归一种延伸。我们面对的因变量，也就是模型输出结果不再是一个连续变量，而是一个分类变量。最常见的逻辑回归就是二分类变量逻辑回归，通常我们可以使用这种方法来寻找目标客户。

三、逻辑回归，变量筛选

1.进行逻辑回归时，我们希望选择的变量尽可能地有效，避免冗余。常用的变量筛选方法有如下几种：

Wald检验：通过Wald统计量，来检验自变量对因变量的影响能力。Wald越大，说明自变量的相关性越大，越应该保留。

似然比检验(Likehood Ratio)：也是逻辑回归非常常用的一种检验方法。逻辑回归模型的估计一般是使用最大似然估计，也就是说找到一个似然函数L，使其达到最大值。L越大，也就说明模型的预测效果越好。因此似然比检验本质上是对包含或者不包含某一个或者几个变量的模型L值进行比较，从而做出判断。

比分检验(Score Test)：以包含某个或者某几个变量的模型作为基础，加入系数为0的新变量，通过计算似然函数的一阶偏导数和信息矩阵，取两者的乘积作为最终的统计量。

这三种方法中，似然比检验是最可靠，也是最常用的一种变量筛选方法。在变量存在共线性时，Wald检验结果不可靠。另外，实际应用是以上三种方法，都可以采用向前或者向后逐步的方式进行变量筛选。

另外在逻辑回归模型里，我们需要使得自变量和因变量的对数存在线性关系。如果发现实际的变量不符合，可以通过筛选变量，变量转换等方式进行调整。另外变量转换也可以避免异常值对结果造成偏差。

前面提到，逻辑回归的模型参数估计通常采用的是最大似然函数法，因此理论上需要有一定量的样本才能采用这种方法，否则检验公式就是不合理的。另外也需要注意的是，逻辑回归的模型无法解决多重共线性的问题，因此在输入变量前，对变量进行检验和清洗是非常必要的。得到模型后，我们可以通过混淆矩阵和ROC曲线来评判模型的效果。