[原创][实验报告]Eviews做面板数据及主成分分析

这里只有作者精心编写的研究经历!
回复
头像
hellohappy
网站管理员
网站管理员
帖子: 269
注册时间: 2018年11月18日, 14:27
Been thanked: 1 time

#1 [原创][实验报告]Eviews做面板数据及主成分分析

未读文章 hellohappy » 2018年12月26日, 01:46



目录:

    实验报告内容,相关附件
    数据来源和研究目标:
        1.向Eviews导入面板数据
       2.向Eviews添加pool数据
        3.确定研究目标,确立基本方程
    识别面板数据服从哪种模型、Hausman检验分析选择固定效应或随机效应
       变截距、变系数、不变系数模型
            1.不变系数模型
            2.变截距模型
            3.变参数模型
        构建F统计量确定采用哪种模型
            构建H2下检验的统计量F2
           构建H1下检验的统计量F1
       Hausman检验
            先做随机效应回归模型
            Hausman检验
    样本相关阵以及相关矩阵的特征根和主成分负荷,确定主成分并计算主成分得分
        用于主成份分析的数据
       主成分分析结果
            碎石图
            变量载荷图
            成分得分图
           biplot图
    相关阵以及相关阵的特征值、相应的方差贡献率以及积累方差贡献率,如需进行因子旋转,求出旋转前后的因子载荷矩阵
       相关阵以及相关阵的特征值、相应的方差贡献率以及积累方差贡献率估计:
       因子旋转尝试
 

后面要做的内容和下面的课程作业有关:
    实验报告:
        1. 识别面板数据服从哪种模型?(变截距、变系数、不变系数),利用Hausman检验分析个体影响是采用固定效应还是随机效应更优?以上分析,请提供详细过程及结果。
        2. 求样本相关阵以及相关矩阵的特征根和主成分负荷。确定主成分并计算主成分得分。
        3. 求样本相关阵以及相关阵的特征值、相应的方差贡献率以及积累方差贡献率,如需进行因子旋转,求出旋转前后的因子载荷矩阵。 和作业相关的ppt课件的链接在这里:
    实验报告:这个帖子的10,13章节的ppt

相关的附件在这里:
    
Excel格式的数据文件:
guangdong.xls
(93.5 KiB)
guangdong.xls
(93.5 KiB) 尚未被下载
    Eviews格式的数据文件:
guangdong.zip
(23.03 KiB)
guangdong.zip
(23.03 KiB) 尚未被下载
 

数据来源和研究目标:

    数据来源为中国城市统计年鉴等,数据跨越的年份为2003到2015年,研究的个体为广东省的21个地级市。数据属于平衡面板数据。选取的变量有:三种专利授权数(件)、年末总人口数(万人)、科研、技术服务和地质勘查业从业人员数(万人)、政府的财政科学支出(万元)、普通高等学校在校学生数(人)、当年实际使用外资金额(万元)、实际进口总额(万元)。
    数据结构如下:
中国城市统计年鉴数据.png
    上面的这种数据的排列是年份为第一排序变量,city为第二排序变量,纵列为变量名,而且属于标准的面板数据。在不借助Excel的再排序的基础上,我们要怎么把他导入Eviews里面呢,而且因为要进行面板数据分析,还要导入到pool中?(因为你可以在Eviews里面生成一堆变量名以后,在Excel按照同样的排列顺序排序,然后再复制到Eviews,这样其实在变量名字不多的时候还是比较快的。但是你要怎么偷懒呢?特别是导入pool里面这一步?)

    1.向Eviews导入面板数据
        首先打开Eviews,选择 Open a Foreign file(such as Excel) ,打开相应的Excel,
打开Eviews录入数据1.png
打开Eviews录入数据2.png
打开Eviews录入数据3.png
不需要链接.png
不需要链接.png (18.63 KiB) 查看 231 次
不需要链接.png
不需要链接.png (18.63 KiB) 查看 231 次
        接下来对导入的数据重命名一下,删掉一些不用的变量,重命名以后数据如图:
数据图.png
数据图.png (31.83 KiB) 查看 231 次
数据图.png
数据图.png (31.83 KiB) 查看 231 次
        其中变量的含义为:三种专利授权数y(件)可以用于衡量一个城市的知识产出水平,也即是创新能力的另一种表现。要探究广东省各个城市的创新能力差异的来源。其中核心的解释变量是 study:政府的财政科学支出(万元)、students:普通高等学校在校学生数(人)、fdiyuan:当年实际使用外资金额(万元)、import:实际进口总额(万元)。

    2.向Eviews添加pool数据
        上面的面板数据要转换成pool数据才能方便的进行面板数据分析。过程和方法如下:
        先 new 一个 pool 的object:
Eviews new object.png
选择pool类型的object.png
选择pool类型的object.png (35.13 KiB) 查看 230 次
选择pool类型的object.png
选择pool类型的object.png (35.13 KiB) 查看 230 次
        输入截面名字:
输入截面名字.png
输入截面名字.png (24.42 KiB) 查看 230 次
输入截面名字.png
输入截面名字.png (24.42 KiB) 查看 230 次
        输入变量名字:
输入变量名字选项.png
输入变量名字选项.png (41.69 KiB) 查看 230 次
输入变量名字选项.png
输入变量名字选项.png (41.69 KiB) 查看 230 次
输入变量名字.png
输入变量名字.png (23.18 KiB) 查看 230 次
输入变量名字.png
输入变量名字.png (23.18 KiB) 查看 230 次
        点击ok生成相应的pool变量:
现在她已经根据我们的输入生成了pool相应的变量.png
现在她已经根据我们的输入生成了pool相应的变量.png (42.79 KiB) 查看 230 次
现在她已经根据我们的输入生成了pool相应的变量.png
现在她已经根据我们的输入生成了pool相应的变量.png (42.79 KiB) 查看 230 次
        现在她已经根据我们的输入生成了pool相应的变量,而且排序和我们输入的是一致的。但是全部数据都是 NA ,也就是都是空的数据,所以我们需要把之前导入的面板数据直接复制过来。
        复制的方法是,按照顺序点击各个变量,然后open as group,你会发现,group的变量顺序和pool的顺序一模一样!
        先按照变量创建时间排序,因为pool创建的变量肯定在后面,但是他又很多,不排序很难找到原来的变量名。按照顺序点击之前用面板数据形式导入的变量名。
按顺序点变量名.png
        右键,以组的方式打开,打开以后,你会发现这个和你的pool数据顺序完全一样!
以组的方式打开.png
        既然完全一样,直接复制过去就行了,注意复制的时候,只复制数字,不要连着标题复制,要不可能复制过去会报错。比如下面这种直接 全选(ALT+A) 是不行的。
复制面板数据.png
粘贴到pool.png
粘贴完成.png
        复制完成以后!除了变量名,其他都一样对不对!因为我们是直接根据Eviews默认的排序生成的变量,自然还是和原来排序方法生成的顺序一样呀!
        ok,到这里我们已经完成了数据的录入了!

    3.确定研究目标,确立基本方程
        先确定研究的主题,三种专利授权数y(件)可以用于衡量一个城市的知识产出水平,也即是创新能力的另一种表现。要探究广东省各个城市的创新能力差异的来源。其中核心的解释变量是study:政府的财政科学支出(万元)、students:普通高等学校在校学生数(人)、fdiyuan:当年实际使用外资金额(万元)、import:实际进口总额(万元)。
        建立的基本回归方程为:
yit=β1*studyit+β2*studentsit+β3*fdiyuanit+β4*importit+β5+ai+ uit
        i为个体,代表广东的21个地级市,t为时间,2003年到2015年。

识别面板数据服从哪种模型、Hausman检验分析选择固定效应或随机效应

    变截距、变系数、不变系数模型
        建立的基本回归方程为:
yit=β1*studyit+β2*studentsit+β3*fdiyuanit+β4*importit+β5+ai+ uit
        i为个体,代表广东的21个地级市,t为时间,2003年到2015年。
        上面的模型中ai代表个体固定效应常用的有如下三种情形:
            情形1:  ai=aj,  βi=βj   (不变系数模型)
            情形2:  ai≠aj ,  βi=βj  (变截距模型)
            情形3:  ai≠aj,  βi≠βj  (变参数模型)

        对于情形1,在横截面上无个体影响、无结构变化,则普通最小二乘法估计给出了a和β的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。
        对于情形2,为变截距模型,在横截面上个体影响不同,个体影响表现为模型中被忽略的反映个体差异的变量的影响,又分为固定影响和随机影响两种情况。
        对于情形3,称为变系数模型,除了存在个体影响外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面上是不同的。
        两条原假设:
            H1:不同研究个体之间β都相同
            H2:不同研究个体之间截距和β都相同

        可见如果接受假设 H2 则可以认为样本数据满足不变参数模型,无需进行进一步的检验。
        如果拒绝假设H2,则需检验假设H1。如果接受H1,则认为样本数据符合情形2,即模型为变截距模型,反之拒绝H1 ,则认为样本数据符合情形1,即模型为变参数模型。
        要判断用哪一个模型,需要先对这三种模型进行估计,再利用他们的残差平方和等,构造F统计量

        下面分别是三种模型的估计结果和过程:(每一个回归结果的分析我就不写了,就是不断的说系数显著,R方,F统计量什么的)
            1.不变系数模型:

                点开pool窗口,找到模型估计
Eviews的pool面板数据估计在哪.png
                设置面板数据回归,不变系数模型的设置是没有固定和随机效应,系数为普通系数,截距为c。
不变截距模型设置.png
不变截距模型设置.png (38.75 KiB) 查看 228 次
不变截距模型设置.png
不变截距模型设置.png (38.75 KiB) 查看 228 次
                回归结果如下:
不变系数模型结果.png
不变系数模型结果.png (33.12 KiB) 查看 226 次
不变系数模型结果.png
不变系数模型结果.png (33.12 KiB) 查看 226 次
                我们记录一下残差平方和用于构建F统计量,情形1(不变参数模型)的残差平方和记为 S3,S3= 2905921048.744856

            2.变截距模型:

                如果我们想要查看原来的数据数据,要怎么点开原来的数据表格呢?
回到原来的数据表再进行同样的操作.png
                变截距模型的设置为,固定效应选个体固定效应,系数为普通回归系数。(其实固定效应还包括个体固定效应,时间固定效应,个体和时间双固定效应。而各种固定效应,又有对应的随机效应,这里只进行个体固定效应回归。)
变截距模型设置.png
变截距模型设置.png (42.53 KiB) 查看 227 次
变截距模型设置.png
变截距模型设置.png (42.53 KiB) 查看 227 次
                变截距模型(个体固定效应模型)的结果如下:
变截距模型结果1.png
变截距模型结果1.png (26.21 KiB) 查看 226 次
变截距模型结果1.png
变截距模型结果1.png (26.21 KiB) 查看 226 次
变截距模型结果2.png
变截距模型结果2.png (12.46 KiB) 查看 226 次
变截距模型结果2.png
变截距模型结果2.png (12.46 KiB) 查看 226 次
                我们记录一下残差平方和用于构建F统计量,情形2(变截距模型)的残差平方和记为 S2,S2= 1587309582.308128

            3.变参数模型:

                变系数模型设置为个体固定,根据截面变化的系数(这两个选项加一起刚好是每一个截面的截距和系数都不一样,同理还有很多种不同的组合,这里只是最常见的一种!)
变系数模型设置.png
                结果为:
变系数模型结果1.png
变系数模型结果1.png (44.46 KiB) 查看 226 次
变系数模型结果1.png
变系数模型结果1.png (44.46 KiB) 查看 226 次
变系数模型结果2.png
变系数模型结果3.png
变系数模型结果3.png (36.41 KiB) 查看 226 次
变系数模型结果3.png
变系数模型结果3.png (36.41 KiB) 查看 226 次
变系数模型结果4.png
变系数模型结果4.png (15.36 KiB) 查看 226 次
变系数模型结果4.png
变系数模型结果4.png (15.36 KiB) 查看 226 次
                我们记录一下残差平方和用于构建F统计量,情形3(变系数模型)的残差平方和记为 S1,S1= 344565833.5202118

    构建F统计量确定采用哪种模型

        计算F统计量,其中N=21、k=5、T=13; S1= 344565833.5202118; S2= 1587309582.308128; S3= 2905921048.744856
        构建H2下检验的统计量F2,在假设 H2 下检验统计量 F2 服从相应自由度下的F分布。若计算所得到的统计量 F2 的值不小于给定置信度下的相应临界值,则拒绝假设 H2,继续检验假设 H1。反之,接受 H2则认为样本数据符合模型情形1 ,即不变参数模型。
        下面用到的计算,你可以直接在本站的科学计算器处直接计算,还是挺方便的哦。
            app.php/calculator
        其结果如下:
            F2服从F(20*6,21*(13-5-1))也就是F(120,147),利用函数得到相应的F分布5%显著性水平下的临界值为:1.329511
            F2 =((S3 -S1) / (20*6)) / (S1 / (21*13-21*6)) =9.1061
            F2>1.3295,拒绝H2

        构建H1下检验的统计量F1,若计算所得到的统计量F1的值不小于给定置信度5%下的相应临界值,则拒绝假设H1。如果接受H1,则认为样本数据符合情形2,即模型为变截距模型,反之拒绝H1 ,则认为样本数据符合情形3,即模型为变参数模型。
        其结果如下:
            F1服从F(20*5,21*(13-5-1))也就是F(100,147),利用函数得到相应的F分布5%显著性水平下的临界值为:1.346790
            F1 =((S2 -S1)/(20*5))/(S1 /(21*13-21*6)) =5.3018
            F1>1.3468,拒绝H1
        综上,选择变系数模型是最有效的。这里也看出,广东省各个地级市之间的个体差异,除了截距,也就是各市本身的创新能力的差异,其创造城市创新产出的能力或者方式也是差异很大的。

    Hausman检验

        由于我们的变截距模型,也就是固定效应前面只考虑了个体固定效应模型,事实上我们还要测试时间他是否满足随机效应。
        Hausman检验的原假设是:随机影响模型中个体影响与解释变量不相关。
        先做随机效应回归模型
             但是做Hausman检验前,需要先做随机效应回归模型,其结果如下:
随机效应模型设置.png
随机效应模型结果1.png
随机效应模型结果1.png (28.17 KiB) 查看 224 次
随机效应模型结果1.png
随机效应模型结果1.png (28.17 KiB) 查看 224 次
随机效应模型结果2.png
随机效应模型结果2.png (16.14 KiB) 查看 224 次
随机效应模型结果2.png
随机效应模型结果2.png (16.14 KiB) 查看 224 次
        Hausman检验:
Eviews的Hausman检验在哪.png
Hausman检验结果.png
Hausman检验结果.png (13.17 KiB) 查看 224 次
Hausman检验结果.png
Hausman检验结果.png (13.17 KiB) 查看 224 次
        由上面的检验结果可知,Hausman统计量为12.510571,p值是0.0136,在5%的显著性水平下拒绝原假设,即随机影响模型中个体影响与解释变量相关,可以将模型设定为固定效应模型。而且本模型本身研究也是广东省的各个市的创新能力差异,以及创新能力来源,广东省共21个地级市,21个地级市的数据都收集了,所以本身研究问题上面就适合固定效应模型。(随机效应模型更偏向于随机收集了一部分数据,并将得到的结论推广到整体。)

样本相关阵以及相关矩阵的特征根和主成分负荷,确定主成分并计算主成分得分

    用于主成份分析的数据:
        对广东省的潮州市,取2003年到2015年的以下变量:
            三种专利授权数y(件)、政府的财政科学支出study(万元)、普通高等学校在校学生数students(人)、当年实际使用外资金额fdiyuan(万元)、实际进口总额import(万元)。
        由于潮州市的编号刚好为1所以数据的展示结果如下:
潮州市的5个变量.png
潮州的五个变量展示.png
        我们就认为上面的这五个变量可以用于衡量一个城市的对创新的重视程度,创新产出能力等。尝试从这5个变量中提取主成分,并计算得分,以达到降低数据维度的目的。

    主成分分析结果:
        主成分分析的参数为默认,最大数目为5,主成份分析的结果和过程如下:
Eviews的主成分分析在哪.png
主成分设置.png
主成分结果.png
主成分结果.png (32.31 KiB) 查看 222 次
主成分结果.png
主成分结果.png (32.31 KiB) 查看 222 次
        主成分分析结果的第一部分是主成分分析的基本分析结果。表的第一部分概括了特征值(Value)、相应特征值与后一项的差(Difference)、对总方差的累积解释比例(Cumulative Proportion)等等。中间一部分是各个主成分的载荷情况(也就是各个因子中对各个原始变量的权重),最后一部分是原始变量之间的相关系数。我们可以把上面的结果写成下面的结果表形式,看上去会清晰很多。
主成分分析结果表格展示.png
主成分分析结果表格展示.png (15.1 KiB) 查看 221 次
主成分分析结果表格展示.png
主成分分析结果表格展示.png (15.1 KiB) 查看 221 次
        碎石图:为了确定最终保留的主成份的个数,我们可以利用碎石图来鉴别:
Eviews的碎石图设置.png
Eviews的碎石图设置.png (36.33 KiB) 查看 221 次
Eviews的碎石图设置.png
Eviews的碎石图设置.png (36.33 KiB) 查看 221 次
碎石图结果.png
碎石图结果.png (9.84 KiB) 查看 221 次
碎石图结果.png
碎石图结果.png (9.84 KiB) 查看 221 次
        碎石图的结果中,在第3个特征值的地方有较大的拐点,而且第3个特征值开始明显变小(小于1) ,可以确定只需要2个或3个主成份。
        变量载荷图(Variable loadings plot)给出对应主成分的变量载荷系数,从图中可以看出如何根据原始变量合成新的主成分;如下:
变量载荷图.png
变量载荷图.png (46.02 KiB) 查看 221 次
变量载荷图.png
变量载荷图.png (46.02 KiB) 查看 221 次
变量载荷图结果.png
变量载荷图结果.png (18.1 KiB) 查看 221 次
变量载荷图结果.png
变量载荷图结果.png (18.1 KiB) 查看 221 次
        成分得分图(Component scores plot)显示对应于样本区间内的观测值成分的得分值;展示了广东省潮州市13个样本点分别的得分情况。
主成分得分设置.png
主成分得分设置.png (41.92 KiB) 查看 221 次
主成分得分设置.png
主成分得分设置.png (41.92 KiB) 查看 221 次
主成分得分结果.png
主成分得分结果.png (13.43 KiB) 查看 221 次
主成分得分结果.png
主成分得分结果.png (13.43 KiB) 查看 221 次
        biplot图(Biplots (scores & loadings))则表示在一个图中同时显示载荷系数和得分值(前两张图合在一起)。如下图:
biplot结果.png
biplot结果.png (43 KiB) 查看 221 次
biplot结果.png
biplot结果.png (43 KiB) 查看 221 次
biplot设置.png
biplot设置.png (18.1 KiB) 查看 221 次
biplot设置.png
biplot设置.png (18.1 KiB) 查看 221 次
相关阵以及相关阵的特征值、相应的方差贡献率以及积累方差贡献率,如需进行因子旋转,求出旋转前后的因子载荷矩阵
    相关阵以及相关阵的特征值、相应的方差贡献率以及积累方差贡献率估计:
        因子分析采用的是极大似然法,其他都是默认选项,从上面的结果,可以看到最后得到了两个因子个数:
Eviews的因子分析在哪.png
Eviews的因子分析在哪.png (36.81 KiB) 查看 220 次
Eviews的因子分析在哪.png
Eviews的因子分析在哪.png (36.81 KiB) 查看 220 次
因子分析设置.png
因子分析设置.png (43.14 KiB) 查看 220 次
因子分析设置.png
因子分析设置.png (43.14 KiB) 查看 220 次
因子分析的结果.png
因子分析的结果.png (33.58 KiB) 查看 220 次
因子分析的结果.png
因子分析的结果.png (33.58 KiB) 查看 220 次
        FDIYUAN1也就是外商直接投资的公共方差为:0.06^2+0.79^2=62.7.%,剩余方差为:37.23%。其它相对应的公共方差和剩余方差以此类推。仔细查看上面的因子,可以发现除了外商直接投资和出口总额,其他变量都高度依赖于F1 ,可以大概判定该因子主要反应国内的经济情况,F2则集中在出口和外商直接投资,主要反应对外的经济变量趋势。F1和F2两个因子可用综合反应广东省的综合经济发展情况。(这一段话主观性很强!你可以根据实际的结果自行给他取一个名字,叫上面因素都行,言之有理即可。)

    因子旋转尝试:
        在明确最终的主成份形式前,我们先进行因子旋转分析,以查看是否能找到更加有效的降维度方法:
Eviews的因子旋转在哪.png
        因子选择的参数你可以随便改,直到试出你想要的结果。
因子选择的参数你可以随便改_直到试出你想要的结果.png
因子选择的参数你可以随便改_直到试出你想要的结果.png (45.87 KiB) 查看 219 次
因子选择的参数你可以随便改_直到试出你想要的结果.png
因子选择的参数你可以随便改_直到试出你想要的结果.png (45.87 KiB) 查看 219 次
      某一个因子旋转的结果:
某一个因子旋转的结果.png
某一个因子旋转的结果.png (23.11 KiB) 查看 219 次
某一个因子旋转的结果.png
某一个因子旋转的结果.png (23.11 KiB) 查看 219 次
      多次多种方法尝试以后,并没有找到更有效的因子。以上这个旋转结果,可用看作创新因子和其他因子。F2中权重较高的是三种创新产出、研发投入和在校学生数。三者都是与创新产出息息相关的。而F1则主要是其他因子综合。但是仍然不够明显。因此还是采用最开始的估计出来的两因子:对外的经济因子和对内经济因子。
 

Link:
Hide post links
Show post links

头像
hellohappy
网站管理员
网站管理员
帖子: 269
注册时间: 2018年11月18日, 14:27
Been thanked: 1 time

#2 Re: [原创][实验报告]Eviews做面板数据及主成分分析

未读文章 hellohappy » 2018年12月28日, 19:02

如果你想重复上的实验又不想用同样的数据,你可以下载这个:
部分实验数据.xlsx
(20.3 KiB) 尚未被下载

Link:
Hide post links
Show post links


回复