1 Heckman两阶段模型的形式

第一阶段：

$Pr(y_{it}=1)=\alpha_{0} +\alpha_{1}x_{1it} + \alpha_{2}x_{2it} + \cdots +\alpha_{n}x_{nit}$

第二阶段：

$z_{it} =\alpha_{0} +\alpha_{1}x_{1it} + \alpha_{2}x_{2it} + \cdots +\alpha_{n}x_{nit}+\beta \lambda$

Heckman两阶段模型第一阶段是一个概率模型，根据第一阶段y=1的预测值计算出逆米尔斯比率（λ），然后将λ加入到第二阶段的回归方程中对方程进行修正。

2 Heckman模型应用

2.1 数据

我们已stata16中的数据集进行演示，研究工资的影响因素。然后，有部分调查者可能由于各种原因目前没有工作（或者自己不愿工作，或者正好处于换工作的时间段）。因而该研究中可能存在样本选择偏差。所以这里采用Heckman两阶段方法来进行研究。

第一阶段：劳动者是否在在工作：年龄、劳动力市场状况

第二阶段：工资的影响因素：年龄、工作年限。

2.2 获取网络数据集

获取数据并设置面板数据格式：

webuse wagework
xtset personid year

2.3 面板数据heckman模型估计

面板Heckman模型：

xtheckman wage age tenure, select(working = age market)

目前Heckman模型只能估计面板随机效应

在估计结果中，主要看corr(e.working,e.wage)和corr(e.working[persionid],e.wage[persionid])，分别表示是否工作和工资的整体相关性、表示是否工作和工资的个体随机效应之间的相关性。本例中两个参数值的P值均小于0.1，因而是否工作和工资存在显著的相关性，样本存在选择偏差，需要采用Heckman模型的第二阶段估计结果来研究研究工资的影响因素。

当然，如果不想考虑个体随机效应之间的相关性，则可以在命令中加入norecorr选项。

面板Heckman模型（不考虑个体随机效应之间的相关性）：

xtheckman wage age tenure, select(working = age market) norecorr

在估计结果中，主要看corr(e.working,e.wage)参数的显著性来判断样本数据是否存在选择性偏差。

xtheckman命令对数据的质量要求非常高，如果数据质量不高，在估计参数时将出现不收敛或者卡死的现象。

面板数据（短面板）

1 Heckman两阶段模型的形式

2 Heckman模型应用

2.1 数据

2.2 获取网络数据集

2.3 面板数据heckman模型估计

Comments

Make a comment