在研究显示问题时,经常会遇到样本选择偏差问题。例如,为了研究教育对工资收入的影响,研究人员随机收集了1000名受访者的数据,其中,700名受访者有工作,可以获取收入数据;300名受访者无工作,没有收入数据。在简单的方法就是把这300名无工作的样本剔除,直接用700名有工作的样本进行回归,但这样就产生了样本选择偏差问题。因为那些无工作的人,有些可能接受了很好的教育,但是其却自愿选择了不参加工作。如果把这些样本剔除,可能会高估受教育对工资收入的影响。
Heckman两阶段模型为解决样本选择偏差问题提供了可行方法,其第一阶段采用二值选择模型(如logit模型)估计并预测每个受访者参加工作的概率,并计算出逆米尔斯比率,第二阶段将逆米尔斯比率加入700名有工作的样本中进行回归。如果第二阶段模型逆米尔斯比率没有通过显著性检验,则说明不存在选择偏差,可以直接用700名有工作的受访者样本来估计教育对工资收入的影响;如果第二阶段模型逆米尔斯比率通过了显著性检验,则认为存在选择偏差,需要用Heckman第二阶段中的估计结果作为教育对工资收入的影响程度。
EViews的Heckman模型默认不给出逆米尔斯比率值,但是给出了判断第二阶段模型中逆米尔斯比率是否显著的统计量
1 Heckman两阶段模型的形式
第一阶段:
第二阶段:
Heckman两阶段模型第一阶段是一个概率模型,根据第一阶段y=1的预测值计算出逆米尔斯比率(λ),然后将λ加入到第二阶段的回归方程中对方程进行修正。
2 Heckman模型应用
在上市工业企业中,我们想研究企业海外收入的影响因素,但是其中一些企业选择将产品出口,从而获得海外收入;另一些企业选择不出口,其没有海外收入。如果直接将选择不出口的企业样本删除,将产生样本选择偏差问题。所以这里采用Heckman两阶段方法来进行研究。
第一阶段:企业是否选择出口的影响因素为:企业年龄、ROE、资产负债率、总资本周转率。
第二阶段:企业海外收入的影响因素为:企业年龄、研发投入、是否有国资背景。
2.1 新建工作文件
在EViews主窗口中选中file/new/workfile
在Workfile Create窗口的Workfile structrue type中选择Unstructured/Undated;在Data range中输入1187
。
2.2 导入数据
在EViews主窗口选择File/Import/Import from file
选择上市工业企业的数据文件;
在Excel Read...窗口的Cell Range中选择Custom range;
在Start cell中输入$G$1
,设置需要导入的数据范围。
在Excel Read...窗口中依次选择数据预览列,并在Name中输入变量的英文名称。
原始变量名 | 英文变量名 |
---|---|
ROE | roe |
成立年 | year |
员工总数 | labor |
资产总计 | asset |
资产负债率 | debt |
流动比率 | liquit |
总资产周转率 | turnover |
研发支出比例 | rd |
海外业务收入 | income |
是否出口 | export |
市盈率PE | pe |
基本每股收益增长率 | grow |
国资背景 | govern |
沪(深)股通持股占比 | foreignstock |
是否陆港通股票 | lgt |
2.3 变量转换
在EViews主窗口依次选择Quick/Generate Series。
在Generate Series by Equation窗口的Enter equation中输入lnincome=log(income)
;将海外收入数据取对数变换。
按照相同步骤,在Generate Series by Equation窗口的Enter equation中输入lnage=log(2020-year)
;将企业成立年份数据转换为企业年龄并取对数变换。
2.4 初步估计
在EViews主窗口中依次选择Quick/Estimate Equation;
在Equation Estimation窗口的Equation specification中输入lnincome rd lnage govern c
,对企业海外收入的影响因素方程进行初步估计。
在初步估计结果窗口中可以看出,企业研发投入(RD)、国资背景(GOVERN)对企业海外收入有显著影响,但是企业年龄对海外收入的影响不显著。其中值得注意的是研发投入对海外收入具有负向影响。
2.5 Heckman两阶段模型估计
在初步估计结果窗口中,直接点击Estimate,重新进入Equation Estimation窗口。
在Equation Estimation窗口的Method中选择HECKIT...。
在Equation Estimation窗口的Response Equation中输入上市工业企业海外收入方程的被解释变量和解释变量:lnincome rd lnage govern c
,在Selection Equation中输入企业是否出口方程的被解释变量和解释变量:export lnage roe debt turnover c
;
在Method中选择Maximum likelihood,点击确定进行估计。
Maximum likelihood和Heckman two-step是Heckman两阶段模型的两种估计方法,EViews中Maximum likelihood会给出判断逆米尔斯比率是否显著的统计量,two-step方法不会给出判断逆米尔斯比率是否显著的统计量,所以这里选择Maximum likelihood方法。当然,为了稳健性考虑,也可以同时报告Maximum likelihood和Heckman two-step方法的估计结果。
在Heckman两阶段模型估计结果窗口中,Response Equation给出了企业海外收入方程的估计;Selection Equation给出了企业是否出口方程的估计。
Heckman模型中,lambda是逆Mills比率(EViews默认未给出);两个方程扰动项服从二元正态分布N(0, 0,1, sigma2, rho)。如果参数RHO显著,则表明存在样本选择偏差,否则,则表明不存在样本选择偏差。
该例中,RHO以及转换TFORM(RHO)的P值均小于0.1,因而存在样本选择偏差。需要以Heckman两阶段模型中Response Equation给出的结果作为企业海外收入方程的估计结果。
3 进一步研究
为了方便海外投资者投资我国A股市场,我国资本市场开通了沪港通和深港通,允许海外投资者通过香港证券交易所买卖A股股票。但是并不是所有A股的上市公司的股票都是沪(深)港通的标的,只有通过交易所和证监会的审核,上市公司的股票才能成为沪(深)港通标的,才能够被海外投资者购买。
海外投资者被称为聪明的投资者,他们购买股票的影响因素有哪些呢?如果只选择沪(深)港通标的股票进行研究,可能会造成样本选择偏差(因为某些未成为沪(深)港通标的股票也可能是海外投资者愿意购买的股票)。
这里接着上面的例子数据,采用Heckman两阶段模型来研究海外投资者购买股票的影响因素。
第一阶段:企业是否为沪(深)港通标的的影响因素:企业年龄、ROE、资产负债率、总资本周转率、是否有国资背景。
第二阶段:海外投资者购买股票的影响因素:股票市盈率、股票成长性、企业年龄、是否有国资背景。
3.1 初步估计
在EViews主窗口中依次选择Quick/Estimate Equation;
在Equation Estimation窗口的Equation specification中输入foreignstock pe grow lnage govern c
,对海外投资者购买股票的影响因素进行初步估计。
在初步估计结果窗口中可以看出,只有企业年龄变量显著。
3.2 Heckman两阶段模型估计
在初步估计结果窗口中,直接点击Estimate,重新进入Equation Estimation窗口。
在Equation Estimation窗口的Method中选择HECKIT...。
在Equation Estimation窗口的Response Equation中输入海外投资者购买股票方程的被解释变量和解释变量:foreignstock pe grow lnage govern c
,在Selection Equation中输入企业是否为沪(深)港通标的方程的被解释变量和解释变量:lgt debt roe govern lnage turnover c
;
在Method中选择Maximum likelihood,点击确定进行估计。
在估计结果窗口中,RHO以及转换TFORM(RHO)的P值均小于0.1,因而存在样本选择偏差。需要以Heckman两阶段模型中Response Equation给出的结果作为海外投资者购买股票方程的估计结果。
其中,只有GOVERN变量显著,即海外投资者选股的主要因素是具有国资背景的股票。