panel data数据分析(二)--stata实操(主要是针对短面板)

发布时间:2021-09-11 发表于话题:如何解读多指标面板数据 点击:33 当前位置:财神股票资讯网 教育 panel data数据分析(二)--stata实操(主要是针对短面板) 手机阅读

络新妇镇楼,第七话是甜的。

今天更新到16话了,目前还是只有第七话是甜的。

上集回顾

数据录入

数据插补、清洗等

详见帖子:

3.删除不全的数据

虽然看连玉君老师的视频,里面在stata里面可以直接删除,但是删除的样本是电脑直接操作,删完到时候想回溯补回删除的数据就尴尬了,所以建议用Excel把数据处理好,多留过程文件,譬如说我习惯每操作一步,都会新建一个子文档,这样子好回溯。见下图。

白小圭的子文档

4.导入stata

导入以后,下图中红色字体显示为字符串,字符串是不能被识别的。我们是省级面板,所以需要把市转变为数字型变量。

白小圭的数据

输入【encode city, gen(city2)】,为城市编码使之为数字型变量。见下图,可以看见这时候城市的颜色变成了蓝色,表示stata可以识别

白小圭的数据

————————白小圭的分析,请勿转载————————

二、数据分析

1、统计描述

输入“xtset”命令告诉stata我们的样本变量、时间变量是什么。

下图为【xtset city2 year】

第一行 panel variable:  city2 (strongly balanced),告诉我们的这个是平衡面板

第二行 time variable:  year, 2005 to 2017,告诉我们,定义的时间变量是year,时间跨度是2005年到2017年。

xtset 命令

输入【xtdes】命令查看面板的结构,下图中n=265,T=13,大N小T,所以我们这个是短面板。

xtdes命令

输入【xtsum】命令查看组内、组间与整体的统计指标

看下图,我们看红色框出来的这一块,表示performance的组内(within)标准差为13.53665,表示2005-2017年performance改变的离散程度。可以看见The average performance of a city is between 20 and 78.7 points across cities, but varies by 13 years for each city over time.如果within=0话,意味着这个变量不随着时间而改变,那么就是Time-invariant regressors。

另一方面,变量year的组间(between)标准差为0,下图中蓝色框。是因为这一变量在所有样本中相同,可以认为是Individual-invariant regressors。

xtdes命令

*如果样本的数量比较少,如32个省的话,可以用xtline的命令绘制因变量随着时间改变的趋势图,但是我们这次分析的是市,就不能这样子。

xtline命令

2、数据处理前的检验

由于是panel data,我们还需要考察横向截面和纵向时序的动态变化,因此需要将内生性、异方差和自相关等问题充分考虑。(考点,要背的)为此,可以控制了年份虚拟变量,并估计了聚合在city层面的稳健性标准误。

以前的时候,我写过一篇用SAS软件进行高斯马尔科夫检验的文章,见下

里面就有如何用SAS进行方差齐性、正态性、自相关等检验。不过如果数据是panel data的话,原本stata检验的程序就需要改变。

①异方差与自相关(短面板不需要考虑,但是可以了解一下)

对于短面板,也就是我们分析的数据,由于时间维度T较小,每个个体的信息较少,无法探讨扰动项是否存在自相关,故一般假设扰动项独立同分布。对于长面板,由于T较大,信息较多,故可以放松这个假定,考虑可能存在异方差和自相关。

但是,为了控制潜在的异方差和序列相关问题,一般,对于短面板,我们对所有回归系数的标准误都在城市/省层面上进行Cluster处理。如果是用LDA分析topic的话,还可以在topic进行Cluster处理。

程序很简单,就在回归后面加一个vce(cluster),如下是在city层面进行cluster的固定效应模型的程序。

xtreg $ylist $xlist, fe vce(cluster city)

②多重共线性

vif了解一下。

下面比如说vif大于10,说明存在多重共线性。该变量应该删除

vif

关于方差膨胀因子有一点需要注意的是,我们写文章的时候,常纳入某个变量的平方项,比如说市长或者市委书记任期的平方值,而如果把平方值和变量纳入一起跑vif的话,大概率值会超过10。但是这不会影响回归模型,由人为设计的某一自变量的幂所造成的共线性问题不会对模型稳健性构成威参见:http://www.statisticalhori⁃。

③跑一下相关

【pwcorr  $y1list $x1list, sig】

用pwcorr 命令跑一下各变量的相关系数需要注意这种,需要警惕的是,如果某个自变量和因变量相关系数很高,那么这个变量最好是删除,无论其vif是否小于10,因为纳入该自变量很可能会影响其他自变量的回归效果。

白小圭的相关

④平稳性和因果检验

如果一个时间序列不是平稳过程,则称为“非平稳序列”(non-stationary time series)。这个还是主要是针对长面板的。还包括单位根、协整、格兰杰因果检验。这里其实内容很多的,需要单独写一篇图文,这次是针对短面板的,单位根检验下次单独写图文。

4、选择合适的回归模型进行回归

上一篇我们说过estimator有混合OLS估计、组间估计(Between estimator,应用较少)、组内估计或固定效应估计(Within estimator or fixed effects estimator)、一阶差分估计(First-differences estimator)、随机效应估计(Random effects estimator),这些估计方法的程序都很简单。见下。

* Pooled OLS estimator

reg $ylist $xlist

* Population-averaged estimator

xtreg $ylist $xlist, pa

* Between estimator

xtreg $ylist $xlist, be

* Fixed effects or within estimator

xtreg $ylist $xlist, fe

* First-differences estimator

reg D.($ylist $xlist), noconstant

* Random effects estimator

xtreg $ylist $xlist, re theta

但是,采取什么样的估计方法要考虑自己的因变量、自变量的类型,一般对于面板数据,都先跑一混合普通最小二乘(pooled OLS)模型的回归分析,然后分别采用固定效应(fixed effects)模型(模型2)和随机效应(random effects)模型进行回归分析。然后根据Hausman 检验选择哪个模型分析指标。还可以根据因变量的类型,采用其他模型进行假设估计,比如因变量为非零的连续变量时采用Tobit模型对假设进行估计,因变量为非0正整数时采用负二项回归(NB regression),这些时候的估计方法都比OLS回归模型的估计更为稳健。(考点,要背的)

①混合模型(Pooled model)

* Pooled OLS estimator

reg $ylist $xlist

②组内估计或固定效应估计(Within estimator or fixed effects estimator)

固定效应模型实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量,使得每个截面都有自己的截距项,截距项的不同反映了个体的某些不随时间改变的特征。

* Fixed effects or within estimator

xtreg $ylist $xlist, fe

回归结果见下图,fixed effects有三个R-square,其中within R-square是真正意义上的R-sq,F值是检验整个回归方程的显著性。

fe估计

③随机效应估计(Random effects estimator)

* Random effects estimator

xtreg $ylist $xlist, re

基本思想是将随机干扰项分成两种,一种是不随时间改变的,即个体效应 ai,另一种是随时间改变的,即通常意义上的干扰项 u_it,估计方法采用FGLS

回归结果见下图,这里面的三个R-sq都不是真正意义上的R-sq,因为采用的是GLS.

白小圭的随机效应估计

④hausman test

* Hausman test for fixed versus random effects model

程序为:

xtreg $ylist $xlist, fe

estimates store fixed

xtreg $ylist $xlist, re

estimates store random

hausman fixed random

结果见下,hausman test显著,采用固定效应模型。

The Hausman test shows significant differences between the coefficients for the fixed effects

and random effects model. Therefore, we need to use the fixed effects model.

hausman test

但是有时候hausman检验是用re还是fe的时候会出现Hausman 检验的卡方值为负的情况,见下图chi2

本文来源:https://www.thyysj.com/info/597186.html

标签组:[变量] [stata] [estimator

相关APP下载

热门话题

教育推荐文章

教育热门文章