虚拟变量

Reads: 20254 Edit

觉得多元回归太low了,想让模型更加高大上吗?想让模型更精确吗?那么赶快用虚拟变量吧。在多元回归中如果样本存在异质性,那么模型很可能给出错误的结论。使用虚拟变量主要就是为了解决样本的异质性问题。当样本存在异质性时,最简单的办法就是把样本按性质分为几类,然后分别做回归,因而虚拟变量本质上就是把样本分类后做回归。

1 虚拟变量的基本形式  

虚拟变量有两个形式,一种是直接加入模型中,只对常数项产生影响;一种是和解释变量的乘积项加入模型中(具体和哪个解释变量相乘根据需要而定),将对被解释变量的系数产生影响。当然,可以把他们组合在一起,同时影响截距项和系数。

1.1 虚拟变量是二分类变量

如性别变量有{男、女}两个分类,那么应该设置1个虚拟变量D,当D=1时代表男性,当D=2时代表女性(也可以设置当D=1时代表女性,当D=2时代表男性)。

形式1: 

    

形式2:

   

1.2 虚拟变量是多分类变量

如地区变量有{东、中、西}三个分类,那么应该设置两个虚拟变量D1和D2。当地区为东部时,D1=1,D2=0;当地区为中部时,D1=0,D2=1;当地区为西部时,D1=0,D2=0。

形式1:

形式2:

2 虚拟变量的例子 ——二分类虚拟变量

在多元线性回归的例子中,发现企业的上市地点有上海和深圳两个,那么在不同地点上市会不会对其roe产生影响呢?这里可以采用虚拟变量方法来进行研究。

首先,添加虚拟变量D,当上市地点为上海时,D=1,当上市地点为深圳时,D=0。

57

2.1 新建工作文件并导入数据

在Eviews软件中,依次点击主界面的file/new/workfile,进入工作文件创建窗口。

选择Workfile structure type下面的Unstructured/Undated,Observations中输入1187,然后点击OK。

58

在EViews主窗口选择file/import/imoort form file,

59

选择Excel数据文件的存放位置,进入数据导入向导窗口,其中第一列是虚拟变量D。

60

d是EViews保留关键词,不能当做变量名,所以虚拟变量名设为dd,然后点击下一页,完成数据导入。

61

2.2 截距项虚拟变量形式的估计

首先,按照多元线性回归中的方法进行变量变换,得到lnlabor和lnage变量。

其次,在工作窗口中,按着ctral键依次选择roe dd liquit turnover lnage lnlabor变量,右键选择Open/as Equation

62

在Equation specification窗口中自动填入了回归命令,点击确定。得到估计结果!

63

在估计结果中,由于DD变量系数的P值为0.184,大于0.1,DD变量不显著。即无论在上海上市还是深圳上市,企业的初始ROE不存在差异。

64

2.3 系数项虚拟变量形式的估计

我们想判断在两地上市企业的流动比率对roe的影响是否有差异。在上面步骤的基础上,在EViews主窗口中选择Quick/Generate Series

65

在变量生成窗口中,输入 dliquit=dd*liquit,点击ok。

66

在工作文件窗口中,按着ctral键依次选择roe liquit dliquit turnover lnage lnlabor变量,右键选择Open/as Equation。在出现的新窗口中直接点击确定,得到估计结果。

67

在估计结果窗口中,DLIQUIT变量的P值为0.3859,大于0.1,所以不显著。即在两地上市企业的流动比率对roe的影响没有差异。影响程度均为liquit变量的系数1.571702。

68

当然,可以进一步生成 dturnover=dd*turnover变量,同时研究在两地上市企业的流动比率、资产周转率对roe的影响是否有差异。甚至把DD也同时加入模型中。

在估计结果中有三个虚拟变量,DD,DLIQUIT和DTURNOVER,这三个变量的P值都不显著,说明企业的ROE与在上海上市还是深圳上市无关。

69

3 虚拟变量的例子——多分类虚拟变量

在多元线性回归的例子中,发现企业的规模存在差异,那么在不同规模的企业,解释变量对roe的影响是否一致呢?这里可以采用虚拟变量方法来进行研究。

添加虚拟变量D1和D2,当为大型企业时,D1=1,否则D1=0;当为中型企业时,D2=1,否则D2=0。通过这样设定,D1=1,D2=0表示大型企业;D1=0,D2=1表示中型企业;D1=0,D2=0则表示小型企业。

70

3.1 导入数据

在EViews主窗口中选则New Object

71

在New Object窗口的Type of object中选择Series,Name for oject 输入d1,点击ok。按照相同步骤,新建d2变量。

72

在工作窗口中,按着Ctrl键依次选中d1和d2,右键选择Open/as Group

73

在Group窗口中,点击Edit+/-,进入编辑模式,然后从Excel文件中将虚拟变量D1和D2粘贴进来,然后直接关闭Group窗口。

注意Excel文件中企业的顺序应该与EViews之前企业数据的顺序一致

74

3.2 截距项虚拟变量形式的估计

在工作窗口中,按着ctral键依次选择roe d1 d2 liquit turnover lnage lnlabor变量,右键选择Open/as Equation。在新窗口中将c去掉,然后点击确定进行估计(这里为了演示虚拟变量显著的情况,所以去掉了截距项c;但正常情况下模型中应当加入截距项)。

估计结果显示,D1变量系数的P值为0.0588,显著,D2变量系数的P值为0.1553,不显著。

注意,当虚拟变量为多分类变量时,比较的基准是没有设置变量的那个类别(在本例中,比较的基准是小型企业)。因而,D1显著,且D1的系数值为9.992891,表明与小型企业相比,大型企业的初始ROE水平更高。D2不显著,表明与小型企业相比,中型企业的初始ROE水平不存在差异。

中型企业和大型企业在模型中没有直接对比,但可以间接判断,因为中型企业与小型企业roe一样,大型企业高于小型企业,所以大型企业也应该高于中型企业。

75

3.3 系数项虚拟变量形式的估计

我们想判断不同规模企业的流动比率对roe的影响是否有差异。在上面步骤的基础上,在EViews主窗口中选择Quick/Generate Series。在变量生成窗口中,输入 d1liquit=d1*liquit,点击ok,生成d1liquit变量。安装相同方法,生成d2liquit变量。

76

在工作文件窗口中,按着ctral键依次选择roe liquit d1liquit d2liquit turnover lnage lnlabor变量,右键选择Open/as Equation。在出现的新窗口中直接点击确定,得到估计结果。

77

78

估计结果窗口显示,D1LIQUIT和D2LIQUIT变量系数的P值均大于0.1,因而都不显著,表明不同规模企业的流动比率对roe的影响不存在差异。

79

当然,可以进一步研究不同规模企业的资本周转率对roe的影响是否有差异。可以按照相同的操作步骤进行估计。

估计结果窗口显示,D1TURNOVER和D1TURNOVER变量的系数分别为9.308877和7.545686,且P值均小于0.1,显著。所以资本周转率每提高1单位,大型企业可以比小型企业ROE多增加9.308877单位;中型企业可以比小型企业ROE多增加7.545686单位。

80

3.4 进一步研究

对于多分类变量,有两种数据类型,一类是无序数据,例如(东部、中部、西部);一类是有序疏解,如(大、中、小)。 上例中,企业规模分为大中小三类,属于有序数据,除了可以用虚拟变量方法外,还可以直接设置一个变量,即设置一个变量M,当为小型企业时,M=1,当为中型企业时,M=2,当为大型企业时,M=2。然后直接将M变量加入模型进行估计。

可以在Excel中增加M变量后导入EViews,也可以在EViews中根据D1和D2来生成M变量。这里采用后面的方法。

在EViews主窗口中选择Quick/Generate Series。在变量生成窗口中,输入 m=(d1*2+d2)+1,点击ok,生成m变量.

81

在工作文件窗口中,按着ctral键依次选择roe m liquit turnover lnage lnlabor变量,右键选择Open/as Equation。在出现的新窗口中将c去掉,点击确定进行估计(为了和设置d1、d2两个虚拟变量的情况比较,这里也将截距项c去掉)。

82

在估计结果窗口中,M变量系数的P值为0.0251,显著。表明不同企业规模初始ROE存在差异。M变量的系数为3.861143,其表明中型企业比小型企业大3.861143,大型企业比中型企业也大3.861143,即大比中、中比小的差距是相同的。而对于设置D1和D2两个虚拟变量的情况,大型企业、中型企业和小型企业的差距可以不同,因而设置D1和D2两个虚拟变量对不同规模企业roe差异的约束更小。

83



获取案例数据,请关注微信公众号并回复:Eviews_dt5


Comments

Make a comment