1 虚拟变量的基本形式
虚拟变量有两个形式,一种是直接加入模型中,只对常数项产生影响;一种是和解释变量的乘积项加入模型中(具体和哪个解释变量相乘根据需要而定),将对被解释变量的系数产生影响。当然,可以把他们组合在一起,同时影响截距项和系数。
1.1 虚拟变量是二分类变量
如性别变量有{男、女}两个分类,那么应该设置1个虚拟变量D,当D=1时代表男性,当D=2时代表女性(也可以设置当D=1时代表女性,当D=2时代表男性)。
形式1:
形式2:
1.2 虚拟变量是多分类变量
如地区变量有{东、中、西}三个分类,那么应该设置两个虚拟变量D1和D2。当地区为东部时,D1=1,D2=0;当地区为中部时,D1=0,D2=1;当地区为西部时,D1=0,D2=0。
形式1:
形式2:
2 虚拟变量的应用
2.1 数据
仍以面板回归中的例子进行演示,根据area(area=1表示东部,area=2表示中部,area=3表示西部)研究不同地区在面板回归中的差异。
2.2 录入数据
打开数据编辑窗口,将数据从Excel中复制到Stata,注意粘贴时选择“将第一行作为变量名”
2.3 设置面板数据格式
设置面板数据格式:
encode prov,g(id)
xtset id year
2.4 截距项虚拟变量形式
生成虚拟变量(设置d1和d2两个虚拟变量:d1=1表示中部,d2=1表示西部,d1=0且d2=0表示东部)
g d1=0
g d2=0
replace d1=1 if area==2
replace d2=1 if area==3
面板截距项虚拟变量的固定效应回归:
xtreg pgdp d1 d2 eduyear pfdi open,fe
在估计结果中,发现d1和d2变量的估计值被省略了。这是因为我们采用了个体固定效应,即对每个省市都进行控制,而东中西部是由省市构成,所以固定效应已经考虑了东中西部的差异,导致d1和d2变量被省略。
面板截距项虚拟变量的随机效应回归:
xtreg pgdp d1 d2 eduyear pfdi open,re
在随机效应估计中,d1和d2变量没有被省略,但是其均不显著,表明地区之间不存在差异!
面板截距项虚拟变量的随机效应回归(简便方法):
xtreg pgdp i.area eduyear pfdi open,re
Stata提供了虚拟变量的简便回归方法,由于area本身属于分类变量,所以可以直接采用i.area的方法进行回归,不需要设置d1和d2两个虚拟变量。
在回归结果中,可以发现采用i.area和采用d1、d2两个虚拟变量方法的回归结果是一样的。
2.5 系数项虚拟变量形式
生成系数项虚拟变量:
g d1eduyear=d1*eduyear
g d2eduyear=d2*eduyear
面板系数项虚拟变量的固定效应回归:
xtreg pgdp eduyear d1eduyear d2eduyear pfdi open,fe
在回归结果中,d1eduyear和d2eduyear变量的p值均小于0.1,因而两个变量均显著。
由于d1=0且d2=0表示东部,所以比较的基准是东部。d1eduyear的系数为-2.640168,表明同样受教育年限提高1年,中部比东部人均gdp少提高2.640168个单位;d2eduyear的系数为-2.063922,表明同样受教育年限提高1年,西部比东部人均gdp少提高2.063922个单位。
面板系数项虚拟变量随机效应回归:
xtreg pgdp eduyear d1eduyear d2eduyear pfdi open,re
在回归结果中,d1eduyear和d2eduyear变量的p值均大于0.1,因而两个变量均显著。
现实中不同地区之间一般存在明显的差异,所以在在面板回归中应优先选择固定效应回归。这里仅仅是为了演示随机效应的回归方法。