问题描述
在写学术论文时,经常碰到面板数据中变量维度不一致的情况,那么此时能否直接进行面板模型回归呢?一般来说,个体固定效应能够控制个体差异,其本质是增加了(个体数量-1)个虚拟变量,所以当变量没有时间维度时(只有个体差异),将与固定效应的虚拟变量完全共线,因而不能把该变量放入回归模型中。时间固定效应与之类似。
实际案例
现整理了我国30个省市2011年至2018年的面板数据,其中area变量(东中西部)不含时间维度,reer变量(汇率)不含个体维度!
录入数据
打开数据编辑窗口,将数据从Excel中复制到Stata
数据整理
encode prov,g(id)
xtset id year
将area变量加入回归模型
xtreg pgdp area,fe
可以发现,由于area变量不含时间维度,其与个体固定效应完全共线,因而回归结果中area变量直接被省略了!
将reer变量加入回归模型
xtreg pgdp reer,fe
可以发现,由于reer变量含有时间维度,因而即使不含个体维度,仍可以正常加入回归模型中!
将reer变量加入回归模型,并加入时间固定效应
xtreg pgdp reer i.year,fe
可以发现,加入时间固定效应后,reer变量仍没有被省略掉,但是注意到2018年的时间虚拟变量被省略掉了!这种情况最为危险,虽然reer与时间虚拟变量完全共线,但是stata只是将模型中的共线的最后一个变量(2018年的虚拟变量)省略了。这种情况即使reer变量没被省略,也不宜放入模型中!
我们将reer和i.year换个顺序,重新进行回归:
xtreg pgdp i.year reer,fe
可以发现,reer和i.year换顺序后,reer变量被省略了!
将“地区维度随时间变化的变量”加入回归模型
area变量由个体变量分类后组成,前面分析可知,直接将area变量加入模型中进行回归会被省略掉,那么如果area变量也随时间变化,是否能加入回归模型呢?这里我们构造area变量和reer变量的乘积项,并将其加入回归模型。
g area_reer=area*reer
sort area year
order area year,b(area_reer)
area_reer变量的形式如下图所示。
将arear_reer变量加入回归模型。
xtreg pgdp i.year area_reer,fe
可以发现,area_reer变量没有被省略。我们可以推出:由个体变量分类后组成的变量,且该变量随时间变化,那么该变量可以加入回归模型!