• Index

截面数据

Reads: 2613 Edit

1 虚拟变量的基本形式  

虚拟变量有两个形式,一种是直接加入模型中,只对常数项产生影响;一种是和解释变量的乘积项加入模型中(具体和哪个解释变量相乘根据需要而定),将对被解释变量的系数产生影响。当然,可以把他们组合在一起,同时影响截距项和系数。

1.1 虚拟变量是二分类变量

如性别变量有{男、女}两个分类,那么应该设置1个虚拟变量D,当D=1时代表男性,当D=2时代表女性(也可以设置当D=1时代表女性,当D=2时代表男性)。

形式1:  

    

形式2:

   

1.2 虚拟变量是多分类变量

如地区变量有{东、中、西}三个分类,那么应该设置两个虚拟变量D1和D2。当地区为东部时,D1=1,D2=0;当地区为中部时,D1=0,D2=1;当地区为西部时,D1=0,D2=0。

形式1:

形式2:

2 虚拟变量的例子 (二分类虚拟变量)

2.1 数据

在多元线性回归的例子中,发现企业的上市地点有上海和深圳两个,那么在不同地点上市会不会对其roe产生影响呢?这里可以采用虚拟变量方法来进行研究。

stata-68

2.2 录入数据及变量转换

打开数据编辑窗口,将数据从Excel中复制到Stata,注意粘贴时选择“将第一行作为变量名”

stata-69

生成lnage变量和lnlabor变量:

g lnage=ln(2020-year)
g lnlabor=ln(labor)

2.3 根据上市地点来创建虚拟变量

创建虚拟变量d,如果企业上市地点为深圳,则d=0;如果企业上市地点为上海,则d=1.

由于Stata16支持中文名,且“上市地点”变量仅在创建虚拟变量中使用一次,所以不再将其重命名为英文!

创建虚拟变量:

g d=1
replace d=0 if 上市地点 == "深圳"

2.4 截距项虚拟变量形式

截距项虚拟变量形式的估计:

reg roe d liquit turnover lnage lnlabor

在估计结果中,变量d的p值大于0.1,表明无论上海还是深圳上市企业的roe没有区别。

stata-70

2.5 系数项虚拟变量形式

创建虚拟变量和liquit变量的交互项:

g dliquit=d*liquit

系数项虚拟变量形式的估计:

reg roe dliquit liquit turnover lnage lnlabor

在估计结果中,变量dliquit的p值大于0.1,表明无论企业在上海还是深圳上市,liquit对roe的影响没有区别。

stata-71

2.6 截距项加系数项虚拟变量形式

截距项加系数项虚拟变量形式的估计:

reg roe d dliquit liquit turnover lnage lnlabor

在估计结果中,变量d和dliquit的p值均大于0.1。表明无论上海还是深圳上市企业的roe没有区别,同时无论企业在上海还是深圳上市,liquit对roe的影响没有区别。

stata-72

3 虚拟变量的例子 (多分类虚拟变量)

在多元线性回归的例子中,发现企业的规模存在差异,那么在不同规模的企业,解释变量对roe的影响是否一致呢?这里可以采用虚拟变量方法来进行研究。

3.1 根据企业规模来创建虚拟变量

添加虚拟变量D1和D2,当为大型企业时,D1=1,否则D1=0;当为中型企业时,D2=1,否则D2=0。通过这样设定,D1=1,D2=0表示大型企业;D1=0,D2=1表示中型企业;D1=0,D2=0则表示小型企业。

由于Stata16支持中文名,且“企业规模”变量仅在创建虚拟变量中使用一次,所以不再将其重命名为英文!

创建虚拟变量:

g d1=0 
g d2=0
replace d1=1 if 企业规模=="大型"
replace d2=1 if 企业规模=="中型"

3.2 截距项虚拟变量形式

截距项虚拟变量形式的估计(这里为了演示虚拟变量显著的情况,在模型中加入nocons选项以去掉截距项,但正常情况下模型中应当加入截距项):

reg roe d1 d2 liquit turnover lnage lnlabor,nocons

估计结果显示,D1变量系数的P值为0.059,显著,D2变量系数的P值为0.155,不显著。

注意,当虚拟变量为多分类变量时,比较的基准是没有设置变量的那个类别(在本例中,比较的基准是小型企业)。因而,D1显著,且D1的系数值为9.992892,表明与小型企业相比,大型企业的初始ROE水平更高。D2不显著,表明与小型企业相比,中型企业的初始ROE水平不存在差异。

中型企业和大型企业在模型中没有直接对比,但可以间接判断,因为中型企业与小型企业roe一样,大型企业高于小型企业,所以大型企业也应该高于中型企业。

stata-73

3.3 系数项虚拟变量形式

创建虚拟变量和liquit变量的交互项:

g d1liquit=d1*liquit
g d2liquit=d2*liquit

系数项虚拟变量形式的估计:

reg roe d1liquit d2liquit liquit turnover lnage lnlabor

估计结果窗口显示,D1LIQUIT和D2LIQUIT变量系数的P值均大于0.1,因而都不显著,表明不同规模企业的流动比率对roe的影响不存在差异。

stata-74

研究不同规模企业的资本周转率对roe的影响是否有差异:

g d1turnover=d1*turnover
g d2turnover=d2*turnover
reg roe liquit turnover d1turnover d2turnover lnage lnlabor

估计结果窗口显示,D1TURNOVER和D1TURNOVER变量的系数分别为9.308877和7.545686,且P值均小于0.1,显著。所以资本周转率每提高1单位,大型企业可以比小型企业ROE多增加9.308877单位;中型企业可以比小型企业ROE多增加7.545686单位。

stata-75

3.4 进一步研究

对于多分类变量,有两种数据类型,一类是无序数据,例如(东部、中部、西部);一类是有序疏解,如(大、中、小)。 上例中,企业规模分为大中小三类,属于有序数据,除了可以用虚拟变量方法外,还可以直接设置一个变量,即设置一个变量M,当为小型企业时,M=1,当为中型企业时,M=2,当为大型企业时,M=3。然后直接将M变量加入模型进行估计。

生成M变量:

g m=1
replace m=2 if 企业规模=="中型"
replace m=3 if 企业规模=="大型"

将M加入模型进行回归(为了和设置d1、d2两个虚拟变量的情况比较,这里也加入nocons选项):

	reg roe m liquit turnover lnage lnlabor,nocons

在估计结果窗口中,M变量系数的P值为0.025,显著。表明不同企业规模初始ROE存在差异。M变量的系数为3.861143,其表明中型企业比小型企业大3.861143,大型企业比中型企业也大3.861143,即大比中、中比小的差距是相同的。而对于设置D1和D2两个虚拟变量的情况,大型企业、中型企业和小型企业的差距可以不同,因而设置D1和D2两个虚拟变量对不同规模企业roe差异的约束更小。

stata-76



获取案例数据,请关注微信公众号并回复:Stata_dt10


Comments

Make a comment

  • Index