1 功能描述
多元线性回归可以用于研究多个自变量对因变量的影响,自变量即可以是分类型变量也可以是数值型变量,但因变量一般应为数值型变量。一元线性回归是多元性线性回归的特例,实际中很少用到,所以这里不再单独演示!
2 初步回归
我们以car_sales.sav的数据为例进行演示:数据包含了汽车的属性以及销售情况,我们将采用多元线性回归对汽车销量的因素进行分析。
双击打开car_sales.sav数据文件,其中lnsales是取对数后的汽车销量。
在数据窗口中,依次点击“分析/回归/线性”。
在弹出的“线性回归”窗口中,将lnsales变量移到右侧的“因变量”框;
将type、price等变量移到右侧的“自变量”框;
注意方法保持默认值:“输入”;
点击Statistics按钮。
在弹出的“线性回归:统计”窗口,勾选“估计、模型拟合度、部分相关和偏相关性、共线性诊断”;由于数据不是时间序列,所以不需要勾选“Durbin-Watson”选项。点击继续返回“线性回归”窗口。
在“线性回归”窗口,点击“绘图”按钮。
在弹出的“线性回归:图”窗口,将ZRESID变量移到右侧的“Y:”框,将DEPENDNT变量移到右侧的“X:”框;然后点击继续返回“线性回归”窗口。
该步骤主要是绘制残差与因变量的图,进而判断是否存在异方差。
在“线性回归”窗口,点击“保存”按钮。
在弹出的“线性回归:保存”窗口,勾选“标准化”选项;然后点击继续返回“线性回归”窗口。
设置好参数后,点击“线性回归”窗口的确定,进行运算。
运算完成后,输出窗口将给出相应的结果。
模型摘要表中给出了R平方,本例中为0.486;ANOVA表中F检验的显著性为0.000,表明模型整体的拟合程度较高。
系数表中的结果最为重要,但是多数变量的显著性大于0.05,未通过检验。根据该表最后1列可知,多数变量的VIF大于2,即存在严重的多重共线问题。因而多数变量不显著很可能是多重共线性造成的。
残差的图形呈现明显的向右上方倾斜的趋势。因而存在异方差性。
3 解决多重共线问题(逐步回归)
我们首先处理多重共线问题。即采用逐步回归的方式,逐个将变量加入模型中。
在数据窗口中,依次点击“分析/回归/线性”。
在弹出的“线性回归”窗口中,将方法从“输入”修改为“逐步”;其他保持默认,点击确定进行运算。
在输出窗口的结果中,逐步回归最终选择了两个变量,price和wheelbas;两个变量均显著且对应的VIF均小于2,因而不存在多重共线性。
在残差的散点图中,散点图依然存在明显的向后上方倾斜的趋势,因而仍存在异方差性。
4 解决异方差问题(加权回归)
接着对异方差进行处理,采用加权回归的思想,即以残差标准差的倒数作为权重进行回归。
由于在前面两次回归中,分别计算了相应的残差标准差,这里首先需要计算残差标准差的倒数。
在数据视图窗口,依次点击“转换/计算变量”;
在弹出的“计算变量”窗口,目标变量框输入“w”;数字表达式框输入“1/ZER_2”(注意要以第二次计算的残差标准差为分母),点击确定按钮。
在数据窗口中,依次点击“分析/回归/线性”,进入“线性回归”窗口;
将自变量框中的变量即保留“price和wheelbas”,然后将方法改为“输入”;将w变量移到“WLS权重”框;最后点击确定按钮进行运算。
运算结束后,输出窗口将给出运算结果。price和wheelbas变量均显著。采用WLS权重回归后输出窗口将不再给出“残差标准差的图形”。