[原创][实验报告]Excel基本数据分析

这里只有作者精心编写的研究经历!
回复
头像
hellohappy
网站管理员
网站管理员
帖子: 282
注册时间: 2018年11月18日, 14:27
Been thanked: 2 time

#1 [原创][实验报告]Excel基本数据分析

未读文章 hellohappy » 2018年12月15日, 00:18



目录:
    研究内容和相关附件
    数据收集和整理
    数据验证
    数据筛选和查看非空单元格数
        数据筛选
        查看非空单元格数
    Excel描述性统计


     Excel是最基础也是最简单易学的数据分析软件,有时候我们可能找不到别的软件进行数据分析,所以我们都应该要具备一定的Excel数据分析能力。
     先报告一下本人的实验环境,excel的2015版


后面要做的内容和这个作业有关:
    实验报告:
        1.
掌握Excel软件中数据分析模块的基本操作,会进行数据录入、检验、排序、筛选等基本的数据处理操作。同时,针对录入的数据利用数据透视表进行数据分类与汇总,并实现变量的描述性统计分析。最后,根据统计数据画出简单的统计图。

本人使用的数据集来源于eps平台,可以在这里下载:
    原始数据:
eps原始数据.xlsx
(95.92 KiB)
eps原始数据.xlsx
(95.92 KiB) 尚未被下载

    整个实验过程创建或者抄作的数据记录
记录数据处理过程.xls
(544.5 KiB) 尚未被下载



数据收集和整理
    第一步是数据收集具体怎么使用eps收集数据我就不详细写了,就是进入eps的数据库,然后点点点,把自己要的数据勾选上。然后就可以得到大概长这样的数据:
eps的数据.png

    首先我收集的数据类型是面板数据什么是面板数据?如果这个概念还不太熟悉的话你需要先去搜索一下数据的类型。数据有截面数据,面板数据,时间序列数据,混合数据等。,有缺失值,但也是平衡面板。也就是strong balance but with gap。什么是平衡面板数据?我觉得高铁梅的书里这句话说的比较好:平衡的意思是,如果按截面成员(个体)堆积数据,每个截面成员(个体)应包括正好相同的时期;如果按日期堆积数据,每个日期应包含相同数量且相同的截面成员,并且按相同顺序排列。特别要指出的是,基础数据并不一定是平衡的,只要在输入文件中有表示即可(也就是数据是可以有缺失的)。如果观测值中有缺失数据,一定要保证文件中给这些缺失值留有位置。 还是没有理解?换一个说法是,假如有一个立体坐标系,那你的数据三个维度分别是: 有哪些时间点、 有哪些个体、 有哪些要研究的变量。只要保证围成一个完整的长方体就行。

    我们要把这直接下载下来的数据稍微整理一下,方便后面的操作。先拆分合并的单元格(对地区名字那一列),进行单元格填充(点一下单元格,然后移动鼠标到单元格的右下角,鼠标变成加号以后,你可以按着鼠标上下拉来填充,也可以双击鼠标,双击鼠标默认会向下填充单元格直到遇到下一个非空单元格),排序(先全选数据(ctrl + a),然后点击Excel最上面的菜单的数据,再点击排序),地区名为第一排序字段,年份为第二字段。整理后的数据大概长这样:
无标题.png
eps稍微整理以后的数据(面板数据)
无标题.png (48.78 KiB) 查看 258 次
eps稍微整理以后的数据(面板数据)
eps稍微整理以后的数据(面板数据)
无标题.png (48.78 KiB) 查看 258 次

     列名分别为:地区,年份,变量名。
数据验证
    虽然eps一般不会有错误数据,但是我还是要验证一下数据的正确性,一个是验证数据是否有负数(因为我的变量理论上不应该有任何负数),一个是验证年份是否都是1991到2016年。一个完整的验证过程大概是这样:
    先选择要验证的区域,这里我把年份的区域都选上,任何点击数据,数据验证。
数据验证1.png

    填充数据验证的信息,这里验证他是1991到2016年,那就是位于1991到2016年的整数。PS:数据验证的清除也是在这个方框里哦,在左下角。
数据验证2.png
数据验证2.png (43.44 KiB) 查看 255 次
数据验证2.png
数据验证2.png (43.44 KiB) 查看 255 次

     然后圈释无效数据,只要最后你选的那一部分数据没有被圈起来,那就说明你的数据符合你自己的预期。
数据验证3.png
数据验证3.png (8.06 KiB) 查看 255 次
数据验证3.png
数据验证3.png (8.06 KiB) 查看 255 次

数据筛选和查看非空单元格数
    数据筛选
        我们筛选出最新的年份(2016年),看看最新年份的数据大概长什么样。
        首先全选数据(ctrl + a),然后点数据菜单,筛选:
筛选1.png

        点开 年份 这个列标题右下角的小倒三角符号,点一下全选取消全部,再点2016:
筛选2.png
筛选2.png (15.05 KiB) 查看 254 次
筛选2.png
筛选2.png (15.05 KiB) 查看 254 次

        然后,就成功筛选出我们要的数据了:
筛选3.png
筛选3.png (47.34 KiB) 查看 254 次
筛选3.png
筛选3.png (47.34 KiB) 查看 254 次

    查看非空单元格数
        如果我们想要看一下所有年份的各个变量的数据缺失情况严重不,我们可以用Excel自带的count函数计算非空单元格数目。这里记得要先取消筛选!取消筛选的方法:直接再次点击筛选按钮。
        为了美观,我们的统计结果就放在每一个变量列的最后一行吧。
        在第二列最后一行,输入以下公式,公式的内容是:=COUNTA(B2:B801)   ;这个公式的意思是计算非空的单元格的个数,范围是B2单元格到B801单元格。有时候我们会看到有些公式会带美元符号,比如 =COUNTA($B$2:$B$801)    ;这个公式的意思是,你拖动单元格或者复制单元格时候,他不会因为复制的单元格与原来的单元格发生了相对偏移而公式内容发生变化。
比如 =COUNTA($B2:$B801)    ;这个公式的意思是,你拖动单元格或者复制单元格时候,不会因为复制的单元格与原来的单元格发生了相对偏移而公式内容发生变化,但是发生了偏移,会发生变化。向下复制一个单元格,他会变成=COUNTA($B3:$B802)。
比如 =COUNTA(B$2:B$801)    ;这个公式的意思是,你拖动单元格或者复制单元格时候,不会因为复制的单元格与原来的单元格发生了相对偏移而公式内容发生变化,但是发生了偏移,会发生变化。向右复制一个单元格,他会变成=COUNTA(C$2:C$801)。

计算非空单元格数.png
计算非空单元格数.png (34.31 KiB) 查看 253 次
计算非空单元格数.png
计算非空单元格数.png (34.31 KiB) 查看 253 次

        回车以后公式就生效了,按住这个单元格右下角的加号向右拖动,就可以得到各个变量的统计结果。
        然后为了方便观看各个变量的对应关系,我们可以暂时先隐藏上面的原始数据。
        先在左边导航条选择所有要隐藏的行(按住首行,拉动到最后一行;也可以点一下首行,然后去最后一行按住shift再点一下最后一行),鼠标右键->隐藏。
隐藏.png

        隐藏以后的数据如图:
非空单元格结果.png
非空单元格结果.png (16.29 KiB) 查看 252 次
非空单元格结果.png
非空单元格结果.png (16.29 KiB) 查看 252 次

        取消隐藏的方法是左边导航条选中被隐藏的列的前后一列,右键->取消隐藏:
取消隐藏1.png
取消隐藏1.png (27.22 KiB) 查看 250 次
取消隐藏1.png
取消隐藏1.png (27.22 KiB) 查看 250 次

        可以看到,数据缺失最严重的是 平均工资(元) 只有124个观测值。平均工资的变量数过少,不利于后面分析,鉴于已经有工资总额这个变量,删去平均工资这一列。

Excel描述性统计
    接下来我们进行描述性统计,并把结果放在另一个sheet里。
    Excel的描述性统计需要用到Excel的数据分析模块,这个模块默认应该是不加载的,关于如何加载数据分析这个模块,可以看百度经验,链接如下:
    加载Excel数据分析方法1
    加载Excel数据分析方法2

    直接点击数据分析模块中的 描述统计 ,然后输入要统计的内容,标题信息,结果存放位置:
Excel描述性统计配置.png
Excel描述性统计配置.png (42.78 KiB) 查看 245 次
Excel描述性统计配置.png
Excel描述性统计配置.png (42.78 KiB) 查看 245 次

    上面这个是区域我选择了所有的变量包含标题点击右边的小图标可以直接鼠标选择,如果知道怎么输入的话自己输入也行。,所以需要勾选标志位位于第一行,数据是逐列的。输出到新工作簿他会自己帮你创建一个sheet,统计的变量勾选了汇总统计,平均数 置信度等。结果如图:
描述性统计结果.png

    可以看到结果啦,但是好像标题有点重叠,不是很美观耶。我们可以根据标题的宽度自动展开。先选择要展开的列,鼠标移动到最后一列的位置,看到人如下鼠标样式时候,双击:
展开列标题.jpg

    然后结果就会展开成这样了:
描述性统计展开结果.png
至此,我们完成了实验的第一个任务!(后面的没空不想写了)

Link:
Hide post links
Show post links


回复