参考书目
张文彤《SPSS20.0统计分析基础教程第2版》
张文彤《SPSS20.0统计分析高级教程第2版》
软件版本 SPSS25.0
基于电子问卷获取的数据
时间在2019年,问卷调研已经很少采用纸质问卷了,除了一些留置问卷的大型项目,大量线上调研、街头拦截的项目,都采用电子问卷。
电子问卷的好处是,提前可以设置很多逻辑限定,避免了很多人为录入错误。
所以,我的学习基于通过电子问卷获得的数据。
数据分析的第一步是数据清洗,如果你认同这句话,恭喜!你已经具有专业思维了。
本篇用到的统计学知识点:描述统计的基本指标,正态分布
常用的方式基本就是以下几类,根据问题实践一下,很快就可以举一反三:
用描述、交叉表的方式即可,比较简单,不演示做法了。
答题时长变量
在线的问卷平台,通常可以提供一个变量是问卷的答题时长,通过这个变量可以初步判断被访者是否认真回答。
合理的答题时间
一个在线问卷调查,设计回答时间的上限通常是15-20分钟,在测试阶段,我会记录一下回答的真实时间,比如10分钟左右。
那么在哪个区间是比较合理的答题时间呢?这是个经验值,也用按后面写道的查找奇异值的方法
问题样本的处理办法
对于回答时间比较短的样本,需要看一下其他问题的回答情况,觉得不太认真的,可以做废卷处理。
有时候也会出现回答时间超长的样本,可能的原因是答题中途有间断,需要根据具体情况再处理。
操作方法
recode的语句比较长,懒得写的话,也可以直接在转换菜单-重新编码为不同变量里操作。
这是手工录入时代常见的问题,电子问卷几乎不会出现了,也学一下吧,万一用得上呢。
操作方法一
数据菜单-汇总
把唯一ID作为分界变量,个案数勾选一下,定义一个新变量名,其他默认就好
操作方法二
数据菜单-标识重复个案
把唯一ID作为定义匹配个案的依据,其他默认就好
重复个案是2个,由于最后一个个案作为主个案,所以重复的是3个个案。
回到数据视图,系统已经帮你把重复的个案排到前面了,就是它们三个。
最后视情况处理就好了。
在电子问卷设计的过程中,我们往往会对每个题是否必答,可填答的数值大小做了限定,所以会大大减少后期出现数值问题的可能。提醒一下,选择题,一定要有一个“不知道或者无法作答”的选项,这样可以封闭选项,使被访者不会因为无法作答而乱答。
尽管如此,仍会有异常值、缺失值、错误值的出现,请看处理方法
2.4.1异常值
方法1:在数据服从正态分布的情况下,可以使用Z分标准化法(3δ法):±3δ (正负3个标准差)以外的数据为高度异常值
这个方法要求数据服从正态分布, 而且不直观,所以只看一下简单演示。
首先要看数据是否为正态分布,方法可以看偏度、峰度、做直方图、做Q-Q图等
第二步,在描述里,将标准化值另存为变量,找正负3以外的数据。
图形-旧对话框-箱图
方法3:标识异常个案
数据-标识异常个案模块来操作,这部分是通过算法来查找异常值,只能作为参考,而不能作为唯一标准。比如我们举的这个例子,这几个样本都不算异常。
算法基本原理
操作方法
2.4.2缺失值
对于调研数据,如果样本量够,一般缺失值就按缺失处理。样本量少的话也可以用均值替代法处理
2.4.3错误值
在纸质问卷调研中,经常会由于录入错误出现错误值,电子问卷这类问题相对少。
处理方法可以用函数,或者验证模块,参见2.5逻辑矛盾的处理。
问题之间会有一定自然逻辑关系,比如年龄太小不应该有孩子。有时候,我们在设计问卷时也会故意设置一些问题之间的逻辑,以检查回答问题的质量。
方法一:验证模块
比如年龄和婚育状况之间的逻辑
Q1年龄变量的取值是18-45
Q28婚育状况变量的取值是
第一步先定义规则
数据菜单下的验证模块
选交叉变量规则,注意表达式的意思是错误的逻辑,别写反了
输出的结果就可以直接显示逻辑错误的样本了
方法二:函数
e.g.
IF(Q1=18 | Q1=19)&Q28 = 3 ERROR=1.
有时候也会用到compute
量表题如果大量答案重复(比如都选同意),一方面反映这个样本的质量可能有问题,另一方面,在做因子分析的时候也会影响结果。可以用计数的方法查错。
第一步,定义一个新变量,把量表的语句都选进去
第二步,统计选5(非常同意)的个数
第三步:跑一下新变量QT的频数,看到一些样本的答案大量集中于5