[转载]stata空间计量官方模块

这里只有作者精心编写的研究经历!
回复
头像
hellohappy
网站管理员
网站管理员
帖子: 282
注册时间: 2018年11月18日, 14:27
Been thanked: 2 time

#1 [转载]stata空间计量官方模块

未读文章 hellohappy » 2019年4月27日, 18:01

前言:
    一般我是不会转载别人的文章的,但这个stata命令可能对要了解空间计量的人来说可能很重要。2017年初的时候,我还找不到面板空间计量的stata命令,然后不知道什么时候出来了 Paul Elhorst 作者的非官方stata命令。(但是matlab版很早很早就有了几乎所有的空间计量相关的程序)大概是18年中,出了stata15的官方空间计量命令,真是幸福!
    其他的空间计量相关资料请点击访问

正文:

    空间计量分析

        地理学第一定律告诉我们,“所有事物都与其他事物相关联,但较近的事物比较远的事物关系更密切” (Everything is related to everything else, but near things are more related than distant things)。基于此,在全球化的背景下,区域之间的互动与溢出效应(spillover effects),越来越成为学界与政界的关注焦点。

        因此,始于1970年代的空间计量经济学(spatial econometrics),近年来发展迅速且日益流行,成为处理空间数据的利器。所谓 “空间数据”(spatial data),就是在原来的横截面或面板数据上,加上横截面单位的位置信息(或相互距离)。空间计量经济学的最大特色就在于充分考虑横截面单位之间的空间依赖性(spatial dependence)。

    在Stata 15中宣布空间数据

        正当你还在四处寻找空间计量的非官方命令时,Stata 15十分贴心而及时地推出了整套空间计量的官方命令(均以 sp 开头,表示 spatial data),可以处理横截面与面板形式的空间数据。

        在 Stata 中处理某些特别形式的数据时,常需要首先设置数据格式,比如时间序列(tsset)、面板数据(xtset)、久期数据(stset,其中 st 表示 survival time)、调查数据(svyset,其中 svy 表示 survey data)。现在,Stata 15 中又新增了宣布数据为空间数据的命令,即

        . spset id

        其中,id 为地理单元的标识变量(geographic unit identifier)。

    导入空间数据

        当然,在 spset 之前,你先要将空间数据输入 Stata。根据空间数据的不同来源,Stata 15 提供了三种导入空间数据的方法,即通过地图文件(data with shapefiles)、通过包含位置信息的文件(data containing locations,比如经纬度),以及其他方法(data without shapefiles or locations,比如手工输入)。

        一般建议使用第一种方法,可通过网络搜索下载相应的地图文件(shapefiles)。Stata 15 提供了将地图文件 shapefiles 转换为 Stata 格式的方便命令:

        . spshape2dta

        此命令将 shapefiles 翻译为 Stata 的 dta 数据文件。使用 shapefiles 的好处之一是,可以很容易地画可视化的等值区域图(choropleth),即根据某个变量的取值大小,在地图上以该区域的颜色深浅来直观地表示。比如,Stata 手册提供的案例:

        . grmap hrate

        此命令表示,使用变量 hrate(homicide rate,凶杀率)来画等值区域图,结果如下图。从此图可知,凶杀率呈现出区域集聚(深色区域)的特征。
 
stata空间计量官方模块图1.png
stata空间计量官方模块图1.png (296.97 KiB) 查看 518 次
stata空间计量官方模块图1.png
stata空间计量官方模块图1.png (296.97 KiB) 查看 518 次

    定义空间权重矩阵

        空间计量分析的出发点是空间权重矩阵(spatial weighting matrix)。比如,对于 n 个区域,可定义空间权重矩阵如下:
stata空间计量官方模块图2.png
stata空间计量官方模块图2.png (39.23 KiB) 查看 516 次
stata空间计量官方模块图2.png
stata空间计量官方模块图2.png (39.23 KiB) 查看 516 次
        其中,此矩阵的 (i,j) 元素 wij表示区域 i 与区域 j 之间的距离有多近。最常用的方法为通过相邻关系(contiguity)来定义空间权重矩阵,即如果区域 i 与区域 j 相邻,则 wij 取值为1,反之则取值为0。

        另一常用方法为通过距离的倒数来定义空间权重矩阵,即
stata空间计量官方模块图3.png
stata空间计量官方模块图3.png (2.74 KiB) 查看 516 次
stata空间计量官方模块图3.png
stata空间计量官方模块图3.png (2.74 KiB) 查看 516 次
        其中, dij为区域 i 与区域 j 之间的地理距离。

        在Stata 15 中,可通过命令 spmatrix 来方便地定义、导入、导出空间权重矩阵,以及进行相应的操作。比如,

        . spmatrix create contiguity W

        此命令将根据相邻关系(contiguity)来创建空间权重矩阵 W。如想使用距离的倒数来定义空间权重矩阵,可输入以下命令:

        . spmatrix create idistance W 

        其中,idistance 表示 inverse distance,即距离的倒数。在定义空间权重矩阵之后,即可进行空间计量的回归分析(包括横截面与面板数据)。

    初步检验空间效应

        在 Stata 15 中定义好空间权重矩阵  后,即可进行初步的空间效应检验。基本方法就是,计算莫兰 I 指数(Moran's I,本质上为空间自相关系数),然后考察其显著性。

        为此,先进行 OLS 回归,比如:

        reg y x1 x2 x3

        其中,y 为被解释变量,x1,x2 与 x3 为解释变量。然后,使用以下命令计算上述 OLS 回归残差的莫兰 I 指数,并检验其显著性。

        estat moran, errorlag(W)

        其中,必选项 errorlag(W) 用于指定空间权重矩阵 W(莫兰指数的定义依赖于空间权重矩阵 W),以检验残差(error)是否具有空间滞后(spatial lag)效应。如果莫兰指数(空间自相关系数)显著不为 0,则说明存在空间效应,须进一步进行空间计量分析;反之,则或许没有必要。

        在上述 OLS 回归中,也可以将自变量都去掉,只对常数项回归:

        reg y 

        estat moran, errorlag(W)


        此时,就是检验被解释变量  本身是否存在空间自相关(spatial autocorrelation)。

    空间自回归模型

        空间计量的不少术语都源于时间序列。比如,空间数据也称为 “空间序列”(spatial series),即分布于空间的序列。

        进一步,最常见的时间序列模型为自回归模型,比如 AR(1),即 y 依赖于它的一阶滞后(邻居)。类似地,可以考虑空间序列的自回归模型(Spatial Autoregression,简记 SAR),即 y 依赖于其一阶空间滞后(邻居)的 y(比如,某地区的犯罪率依赖于其相邻地区的犯罪率),可写为向量形式:
stata空间计量官方模块图4.png
stata空间计量官方模块图4.png (17.07 KiB) 查看 516 次
stata空间计量官方模块图4.png
stata空间计量官方模块图4.png (17.07 KiB) 查看 516 次
        其中, Wy 为 y 的空间滞后(邻居),而参数 λ 即为空间自回归系数(spatial autoregressive coefficient),是空间计量分析首要感兴趣的参数;u 为扰动项。

        如果参数 λ 不显著(λ=0),则表明不存在空间效应,上式简化为一般的线性回归模型:
stata空间计量官方模块图5.png
stata空间计量官方模块图5.png (9.81 KiB) 查看 516 次
stata空间计量官方模块图5.png
stata空间计量官方模块图5.png (9.81 KiB) 查看 516 次
        另一方面,某地区的 y(比如犯罪率)也可能依赖于其相邻地区的 X(比如,警察人数)。为此,考虑以下模型:
stata空间计量官方模块图6.png
stata空间计量官方模块图6.png (18.93 KiB) 查看 516 次
stata空间计量官方模块图6.png
stata空间计量官方模块图6.png (18.93 KiB) 查看 516 次
        其中,WX 为 X 的空间滞后,而 δ 为相应的系数向量。

    空间误差模型

        空间效应的另一表现形式是,影响某地区 y 的扰动项(外生冲击、遗漏变量等)也可能存在空间相关性,即依赖于其相邻地区的扰动项。

        为此,假设线性回归模型 y=Xβ+u 的误差项 u 存在空间自回归,可得 “空间误差模型” (Spatial Errors Model,简记 SEM): 
stata空间计量官方模块图7.png
stata空间计量官方模块图7.png (10.04 KiB) 查看 516 次
stata空间计量官方模块图7.png
stata空间计量官方模块图7.png (10.04 KiB) 查看 516 次
        其中,Mu 为误差项 u 的空间滞后(空间权重矩阵 M 可以等于 W),而ρ 为相应的空间自回归系数。

        将上述空间自回归模型(SAR)与空间误差模型(SEM)相结合,可得到更一般的 SARAR模型 ( 即 Spatial Autoregressive Model with Spatial Autoregressive Disturbances):
stata空间计量官方模块图8.png
stata空间计量官方模块图8.png (18.97 KiB) 查看 516 次
stata空间计量官方模块图8.png
stata空间计量官方模块图8.png (18.97 KiB) 查看 516 次
        其中, 误差项 u=ρMu+ε。

    SARAR模型的估计

        不难看出,上述 SARAR 模型事实上为联立方程组,因为 y 同时出现在回归方程的左边与右边,故存在 “联立方程偏差”(simultaneity bias),导致 OLS 估计不一致。

        早期的空间计量方法主要为 MLE,即在独立同分布(iid)与正态分布的假定下,进行最大似然估计。MLE 的优点在于,如果数据确实为 iid 且正态,则 MLE 是最有效率的估计量。然而,如果数据不是 iid(比如存在异方差),则 SARAR模型的MLE 估计就不一致,故 MLE 的稳健性较差。

        更为稳健的主流方法为工具变量法,即所谓 “广义空间二段最小二乘法” (Generalized Spatial Two-stage Least Square,简记 GS2SLS)。GS2SLS 的优点在于,即使在异方差与非正态分布的情况下,依然是一致估计。

        正如在时间序列或面板数据中经常使用滞后变量(lagged variables)作为工具变量,在空间数据中也可使用空间滞后(spatial lag)作为工具变量,比如, 
stata空间计量官方模块图9.png
stata空间计量官方模块图9.png (15.84 KiB) 查看 516 次
stata空间计量官方模块图9.png
stata空间计量官方模块图9.png (15.84 KiB) 查看 516 次
        其中, WX 为 X 的一阶邻居,而 W²X 为 X 的二阶邻居(即邻居的邻居),以此类推。一般默认使用至二阶邻居,即 q=2 。

        利用这些工具变量,使用 2SLS 即可得到一致估计。然而,由于空间自相关的存在,扰动项并非球形扰动项,故 2SLS 不是最有效率的。GS2SLS 估计在进行 2SLS 之后,还进行了在空间上的广义最小二乘法(GLS),具体来说为空间上的 Cochrane-Orcutt 变换(此变换常用于处理时间序列中的自相关),以得到最有效率的估计。

    空间自回归的Stata命令

        对于横截面数据,估计上述 SARAR 模型的命令为:

        spregress y x1 x2 x3, ml gs2sls dvarlag(W) errorlag(W) ivarlag(W: x1 x2)robust

        其中,选择项 ml 表示进行 MLE 估计,而选择项 gs2sls 表示进行 GS2SLS 估计,这两个选择项二选一。选择项 robust 表示使用稳健标准误。

        选择项 dvarlag(W) 用于指定被解释变量(dependent variable)的空间权重矩阵,而选择项 errorlag(W) 用于指定误差项(error term)的空间权重矩阵。

        选择项 ivarlag(W: x1 x2) 用于指定自变量(independent variable)的空间权重矩阵。其中,选择项 ivarlag(W: x1 x2) 中的 “x1 x2” 表示考虑 x1与 x2 的空间滞后效应,但不考虑 x3 的空间滞后效应。

        如果存在除 y 以外的内生变量,还可进行更一般的工具变量法估计。Stata 15 的相应命令为:

        spivregress y x1 x2 x3 (x4 = z1 z2), ml gs2sls dvarlag(W) errorlag(W) ivarlag(W: x1 x2) 

        其中,y 为被解释变量,x1, x2, x3 为外生解释变量,x4 为内生解释变量,而 z1与 z2 为工具变量。命令spivregress 所使用的估计方法也是 GS2SLS。

    面板数据的空间计量模型

        Stata 15 也能进行面板数据的空间计量分析。对于面板数据而言,一般假设其空间权重矩阵不随时间而变,故在空间权重矩阵的设定方面与横截面数据相同。

        面板数据与横截面数据的最大区别在于,前者一般假设存在 “个体效应”(individual effects),并可以进一步区分为 “固定效应”(fixed effects)与 “随机效应”(random effects)模型。

        对于空间面板的随机效应模型,可进行 MLE 估计。对于空间面板的固定效应模型,Stata 15 采用了 Lee and Yu (2010) 提出的 MLE 估计,即首先通过变换将个体效应消去,然后再进行 MLE 估计。

        空间面板的 Stata 15 命令为:

        spxtregress y x1 x2 x3, fe re dvarlag(W) errorlag(W) ivarlag(W: x1 x2) 

        其中,选择项 fe 表示估计固定效应模型,而选择项 re 表示估计随机效应模型,这两个选择项二选一。

转载自:

    本文作者是陈强老师,山东大学经济学院;

Link:
Hide post links
Show post links


回复