二元logistics模型

Reads: 9580 Edit

1 功能描述

在方差分析和多元线性回归模型中,因变量是数值型变量。在某些情况下,因变量是二分类型变量,如贷款的客服是否违约,是否能考上大学等,这时多元线性模型将不再适用,需要采用logistic模型来进行研究。

2 初步回归

我们以bankloan.sav的数据为例进行演示,根据信用卡用户的行为来判断其是否会违约。

双击打开bankloan.sav数据文件,其中违约变量是二分类因变量,1表示违约,0表示没有违约。

spss-165

在数据窗口中,依次点击“分析/回归/二元Logistic”。

spss-166

在弹出的“Logistic回归”窗口中,将违约变量移到右侧的“因变量”框;

将年龄、教育、工龄、地址、收入、负债率、信用卡负债、其他负债等变量移到右侧的“协变量”框。注意协变量框中默认将变量设定为数值型变量,而教育是分类型变量,所以需要对其进行调整!点击窗口中“分类”按钮。

spss-167

在弹出的“Logistic回归:定义分类变量”窗口中,将教育从左边的协变量框中移到右侧的分类协变量框。注意到参考类别中默认是最后一个,即在回归结果中,所有教育的其余类别的系数都是与最后一个类别进行比较的结果!

点击继续按钮返回Logistic回归窗口。

spss-168

在“Logistic回归”窗口中,点击保存按钮;

在弹出的“Logistic回归:保存”窗口中,勾选预测值区块中的概率;点击继续按钮返回Logistic回归窗口。

spss-169

在“Logistic回归”窗口中,方法保持默认的“输入”选项,即所有变量都进入模型。

点击确定按钮进行运算。

spss-170

运算完成后,输出窗口将给出相应的结果。

我们主要关心“方程式中的变量”表中的结果。表中第2列为logistic模型变量的回归系数,第6列是对应变量的显著性。如果系数大于0,表明变量增大会导致违约率上升,系数小于0,表明变量增大会使违约率下降,如年龄变量的系数为0.035,因而年龄增大会提高违约率。

教育变量是分类型变量,总共高中以下、高中、大专、大学、研究生五类,第5个类别(研究生)是比较的基准,如教育(1)对应的系数为-0.876,因而高中以下相对研究生学历来说,违约率会下降,但是由于第6列对应的显著性水平大于0.05,因而不显著。

我们不能根据第2列的系数来得出违约概率,需要根据最后1列来判断,如年龄对应的Exp(B)为1.036,则年龄增加1岁可以使违约概率上升(1.036-1=0.036);工龄对应的Exp(B)为0.771,则工龄上升1单位可以使违约概率下降(1-0.771=0.229)。

spss-171

如果关心每个用户的违约率情况,可以回到数据窗口,最后1列PRE_1变量即是计算出的每个用户的违约率!

spss-172

3 逐步回归

在初步分析中,我们将所有变量都加入了模型,回归结果可能存在多重共线问题,而且很多变量的系数不显著,所以这里采用逐步回归的方法进行修正。

在数据窗口中,依次点击“分析/回归/二元Logistic”,重新进入“Logistic回归”窗口;

将方法修改为“向前:LR”;

其他设置保持和之前的一致,点击确定进行运算。

spss-173

运算完成后,输出窗口将给出相应的结果。

“方程式中的变量”表中进行了4次迭代,最后工龄、地址、负债率、信用卡负债四个变量加入到模型中,且四个变量的系数均显著,是影响违约的关键因素!

当然,具体某个变量是否加入模型外,除了根据逐步回归自动筛选外,还应该根据具体的理论人为进行调整。比如理论认为教育也是影响违约的重要因素,那么在完成逐步分析后,可以仅将工龄、地址、负债率、信用卡、教育这个变量加入协变量窗口,并采用“输入”方法进行运算。

spss-174



获取案例数据,请关注微信公众号并回复:SPSS_dt10


Comments

Make a comment