多元线性回归

Reads: 5858 Edit

一元线性回归是多元线性回归的特例,也是计量经济学的入门模型,但是在实际中很少用到一元线性回归,大部分都是多元线性回归,且一元线性回归的Eviews操作和多元线性回归一样,因此这里只介绍多元线性回归模型的应用及Eviews操作。

线性回归模型直观、简单,应该十分广泛。但真正用对其实并不容易,好多童鞋对所研究问题认识并不深刻,就拿数据来做线性回归模型,导致实证结果存在偏差。还有一些童鞋拿20、30个样本去做线性回归,发现无论怎么调试模型,所研究变量总是不显著,或者有些变量符号与预期相反,根本问题就在于样本量太少了。

1 多元线性回归模型的形式

其中,Y是被解释变量,X1到Xn是不相关的解释变量。

2 多元线性回归的应用

现收集了我国2020年1187家上市工业企业的财务数据,期望研究上市工业企业净资产收益率(ROE)的影响因素。数据基本情况如下:

34

2.1 建立EViews工作文件

在Eviews软件中,依次点击主界面的file/new/workfile,进入工作文件创建窗口。

选择Workfile structure type下面的Unstructured/Undated,Observations中输入1187,然后点击OK。

35

2.2 导入数据

在EViews主窗口选择file/import/imoort form file,(本例采用EViews9,不同版本的导入功能可能存在差异)

36

选择Excel数据文件的存放位置,进入数据导入向导窗口。其中,前6列是上市企业的基本信息,在模型分析中不需要,所以从第7列开始导入。

37

选择Custom range选项,在Start cell中输入$G$1,然后点击下一页。

38

Name中依次将变量名替换成英文,然后点击下一页,继续点击finish完成数据导入。

39

2.3 估计模型

在EViews工作文件窗口,按着ctral键依次选中roe asset debt labor liquit turnover year(注意roe必须第一个选中),右键选择open/as Equation,进入模型估计窗口。

40

模型估计窗口中,Equation specification已经自动填入了需要估计的多元线性模型命令roe asset debt labor liquit turnover year c。(也可以在EViews主窗口菜单栏选择Quik/Equation Estimate进入模型估计窗口,然后手动输入上述命令)

Method默认为最小二乘法,保持默认就可以啦!
Sample中可以更改样本范围,同样保持默认即可! 点击确定,开始进行模型估计,得到估计结果。

41

在模型估计结果中,DEBT,LIQUIT,TURNOVER三个变量的t检验的P值低于0.1,故这三个变量对ROE有显著影响;F检验的P值低于0.1,模型整体显著。一般来说,在多元线性回归中,R2的值不太重要,0.122778虽然不高,但是也基本符合模型要求。
至此,多元线性回归模型的初步估计完成,但是还有一些问题需要修正!

42

3 多元线性回归的修正

3.1 多重共线性问题

观察模型的解释变量可知,总资产(asset)和劳动人数(labor),流动比率和资产负债率之间存在相关性,因而可能存在多重共线问题。

教材中对于多重共线性问题,一般采用逐步回归方法来处理。但实际中很少采用,一是逐步回归法可能剔除主要的解释变量;二是逐步回归法不够灵活,某些时候即使一些控制变量不显著,但为了符合经济理论,也需要把他加入到模型中。

在实际经济问题中,尤其是宏观经济变量,或多或少都存在多重共线问题,完全消除多重共线问题几乎不可能。因此不严重的多重共线可以不做处理,只有严重的多重共线问题才需要处理,比如严重的多重共线使得解释变量的正负值与预期不符,这时就应当对多重共线问题进行处理。

本例中流动比率(liquid)的系数为负数,理论上流动比率越高应该有助于促进企业ROE上升,即符号应该为正数。应该估计结果为负数可能是多重共线导致的。另外,总资产和劳动人数变量的相关性也可能较高。因而本例需要对多重共线问题进行处理。当然,可以通过方差膨胀因子和相关系数方法进一步验证多重共线问题,这里不在演示。

分别让liquit和debt单独对roe进行回归,发现两者系数估计值的符号与预期一致

43

但当liquit和debt一起和roe进行回归时,liquit的系数值变为负数,与预期值不一致。因而模型中只能放入liquit和debt其中一个。我们可以根据理论来选择,比如理论上认为流动比率对企业ROE的影响更大,故保留liquit变量。当理论上不能决定选哪个变量时,再根据两个方程的R2值来决定保留哪个变量。(总之,理论选择应该优先于统计上的选择

44

在确定了liquit变量后,再依次加入turnover和year变量,发现三个变量均显著,模型解释变量至此增加到三个。

当继续加入labor变量或者asset变量后,发现两者的系数都为负数,且都不显著,但是并不会对liquit、turnover和year变量的估计值产生影响。

当同时加入labor和asset变量后,发现asset变量系数变为正数。因而labor和asset变量存在相关,在模型中只能加入一个。

46

根据R2的值,这里选择加入labor变量,因而最终选择的模型为上面第一个估计结果。其中,提高流动比率、资本周转率有助于促进ROE上升。year表示企业成立年份,因而成立年份越晚,即企业越年轻,ROE也越高。labor则没有通过显著性检验,其对roe的影响不具有统计学意义。

多元线性回归中,我们更关心变量的t检验,即各解释变量是否对被解释变量有影响;而不太关心R2的值。

最后,需要重新估计模型时,可以直接在模型估计窗口中点击Estimate进入估计窗口。

45

3.2 异方差问题

经济问题中异方差也经常存在,且难以完全消除。教材中有多种异方差的检验方法和修正方法,大部分需要对模型进行变换,而这将导致模型原始的解释变量和被解释变量形式变得异常复杂, 难以对原始模型进行解释。因而实际中很少对模型进行复杂的变形,仅做一些基本的调整。

3.2.1 异方差的检验

实际应用中很少对异方差进行检验,这里仅以white检验为例进行介绍。在前面估计结果的窗口中,依次选择view/residual diagnostics/heteroskedasticity tests

47

在heteroskedasticity tests窗口中的test type中选择white,点击ok进行white检验。

48

white检验的原假设是同方差,检验结果的P值小于0.1,因而拒绝原假设,即存在异方差问题。

49

3.2.2 异方差的处理

实际应用中不用对模型做复杂的转换。本例中roe、liquit和turnover变量都是比例数据,而labor变量的取值范围很大,估可以对其取对数处理。同时,也可以进一步把企业成立年份数据转换为企业年龄数据。依次在EViews主窗口中点击quick/generate series,在新窗口中分别输入lnlabor=log(labor), lnage=log(2020-year),生成lnlabor和lnage新变量。

50

51

重新进行估计,发现模型系数的显著性基本没有发生变化。lnlabor仍不显著。在此结果中再次进行white检验,发现有所改善,但是依然存在异方差。实际应用中可以不用再继续处理异方差问题了。

52

3.3 序列相关问题

经济问题中收到个体空间、时间相关等影响,也往往存在序列相关问题,且序列相关也难以完全消除。异方差有多种检验方法和修正方法,一般修正方法也需要对模型进行变换(如广义差分法),导致模型难以解释。因而只要序列相关不太严重,也一般不做修正

本例是截面数据,回归的残差也是截面数据,所以狭义上来说并不存在时间意义上的序列自相关。当然,广义上来说截面之间也可能存在某种相关性,比如空间上的相关性。当然,我们这里为了演示EViews操作,仍将进行序列相关检验。

3.3.1 序列相关检验——杜宾检验

估计结果中,杜宾值为2.018085,约等于2,因而有经验法可知模型不存在一阶序列相关

53

3.3.2 序列相关检验——拉格朗日检验

在模型估计结果窗口中,以此点击view/residual diagnostics/serial correlation lm test,进入拉格朗日检验窗口。

54

lag specification填入1,表示对模型进行1阶序列自相关检验,点击ok进行检验。

55-1

拉格朗日检验原假设是不存在序列相关,检验的P值为0.8548,大于0.1,因而没有拒绝原假设,即不存在序列相关。

55

按照相同步骤,继续进行2阶序列自相关检验,检验的P值为0.0929,表明存在2阶序列自相关。

56

总之,本例中序列自相关不是十分严重,不需要对序列相关进行处理。一般来说,截面数据很少存在严重的序列自相关。如果截面数据真的存在严重序列自相关问题,也不建议用广义差分方法进行处理,因为截面数据的序列自相关可能是空间相关引起的,差分缺乏明确的经济意义。这种情况下,可以通过重新对模型进行设置,寻找新的解释变量替换原有解释变量等方法。



获取案例数据,请关注微信公众号并回复:Eviews_dt4


Comments

Make a comment