2020-06-04
阅读量:
1899
什么是哑变量?
哑变量也叫虚拟变量
将哑变量引入回归模型,虽然使模型变得较为复杂,但可以更直观地反映出该自变量的不同属性对于因变量的影响,提高了模型的精度和准确度。
用一个例子说明:研究性别和工龄对基本工资的影响情况。
工龄是定量数据;性别为二分类数据,因而分析时性别不能直接放入回归模型,正确做法是将变量转化成取值为1和0的哑变量。

性别分为两类,因而需要设置2个虚拟变量(2列),分别表示男性和女性两个类别。
如果是男性,‘性别_男’虚拟变量取值为1,‘性别_女’虚拟变量取值为0。如果是女性则相反。
当变量分类超过两类时,也是类似的处理方式,在回归分析前将下面的“专业”类别转化为虚拟变量,结果如下图所示:

理科类取值=1代表专业为理科,0代表非理科
文科类取值=1代表专业为文科,0代表非文科
工科类取值=1代表专业为工科,0代表非工科






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论