如何才能保障问卷调查来的数据具有代表性?不同的抽样方法具有不同的操作要求,但它们通常都要经历以下五个步骤,问卷调查的数据才更科学!
界定总体
在具体抽样前,首先要对从中抽取样本的总体范围与界限做明确的界定。
这一方面是由抽样调查的目的所决定的。
因为抽样调查虽然只对总体中的一部分个体实施调查,但其目的却是描述和认识总体的状况与特征,是发现总体中存在的规律性,所以必须事先明确总体的范围。
另一方面,界定总体也是达到良好抽样效果的前提条件。
如果不清楚明确地界定总体的范围与界限,即使采用严格的抽样方法,也可能抽出对总体严重缺乏代表性的样本。
在1936年美国大选中,《文学文摘》在全国范围内发放了1000万份明信片问卷,最后回收了约200万份,但预测结果惨遭翻车。
这一实例告诉人们,要有效地进行抽样,必须事先了解和掌握总体的结构及各方面的情况,并依据研究目的明确地界定总体的范围。
样本必须取自明确界定后的总体,样本中所得的结果也只能推广到这种最初已做出明确界定的总体范围之中。
编制抽样框
这一步骤的任务就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立供抽样使用的抽样框。
例如,人们要在某大学进行一项该校大学生择业倾向的抽样调查,第一步就要先对总体进行界定。
如果本次调查的总体是该大学所有在读的全日制本科生和研究生,那么该校的专科生、夜大生及其他不符合上述界定的学生就被排除在总体之外。
而制定抽样框这一步的工作就是要收集全校各系所有在读本科生及研究生的花名册,并按一定的顺序将所有花名册上的名单统一编号,形成一份完整的既无重复又无遗漏的总体成员名单,即抽样框,从而为下一步抽取样本打下基础。
在实际抽样时,一个良好的抽样框通常不太容易获得,其编制需要具备一定的技巧并采取认真细致的态度。
多数抽样框是不完全的,或者一部分模糊不清、难以辨认,或者含有未知的重复部分。
例如,对社区人口调查时,制定完全准确的抽样框几乎是不可能的,因为出生和死亡随时都会发生,人们的住址可能更换,已提供的地址和电话号码也可能有错误。
在做较大规模的调查(如对一个城市的调查)时,因调查总体包含易变因素(如城市移民),建立比较理想的抽样框不但难度高,时间和财力的耗费通常也比较大。
需要注意的是,当抽样分几个阶段、在不同的抽样层次上进行时,则要分别建立几个不同的抽样框。
例如,为了调查某市小学生的学习情况,需要从全市500所小学中抽取10所小学,再从每所抽中的小学中抽取3个班级,最后从每个抽中的班级中抽取10名小学生。
这就需要分别收集并排列全市500所小学的名单、每所抽中的小学中所有班级的名单,以及每个抽中的班级中所有学生的名单,形成三个不同层次的抽样框。
决定抽样方案
在具体实施抽样之前,依据研究的目的与要求,根据调查范围、调查对象、各种抽样方法的特点,以及其他有关因素决定具体采用哪种抽样方法。除了抽样方法的确定外,还要根据调查的要求确定样本的规模及主要目标量的精确程度。
一个完整的抽样方案应包括以下内容:
①确定抽样调查的目的、任务和要求;② 确定调查对象(总体)的范围和抽样单位;③ 确定抽取样本的方法;④ 确定必要的样本量;⑤ 对主要抽样指标的精度提出要求;⑥ 确定总体目标量的估算方法;⑦ 制定实施总体方案的办法和步骤。
实际抽取样本
在完成上述几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个抽样单位,构成调查样本。
例如,在一所大学中抽取200名学生进行调查,若这所学校学生总数不是很大,且很容易得到全校学生的花名册,那么可以事先从这份花名册中抽取200名学生的名单。
评估样本质量
一般情况下,样本的抽出并不是抽样过程的结束。完整的抽样过程还应包括样本抽出后对样本进行的评估工作。
所谓样本评估,就是对样本的质量、代表性、偏差等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致调查失败。
样本对于总体的代表性问题始终是抽样中关注的中心问题。衡量样本质量主要有两个标准,即准确性和精确性。
01
准确性,即样本没有偏差。
偏差也称系统误差,它可能来源于多种原因,其中最主要的原因有两个。一是抽样程序的缺点,即未能严格遵循随机原则。
例如,所使用的抽样框不完整或已过时;或者抽取样本时掺入了主观判断因素等。二是无回答。无回答是样本偏差的主要来源之一。
一个样本一经抽定,就应严格按选定的调查对象进行调查。但在实际调查中,有时在调查现场找不到被选定的人,或者调查对象拒绝接受调查或对某些问题拒绝回答。
这些无回答者往往具有某种特征,如关于家庭收支调查,那些高收入者往往拒绝回答收入情况的问题;在外面做工的人往往无法调查到等。这就使实际调查的样本与被抽出的样本产生偏差。事实上,一个包含比初始选定的单位少于80%的样本几乎肯定是有偏差的,这种情况下应通过二访、三访或其他手段提高回答率。
02
精确性,指抽样误差的大小。
抽样误差是抽样这种方法所固有的误差,是随机误差。抽样误差可以定量进行估计,因此调查人员对于抽样误差的估计具有很大的主动性,如调查人员可以通过控制样本容量来有效控制抽样误差。
从理论上讲,如果能严格遵照随机原则和抽样程序,并提高回答率与问卷回收率,就可以得到一个无偏差即准确性很高的样本,但实际上是很难做到完全无偏差的,而且没有确定的数学模型可以从资料内部对样本的偏差进行测量,这给人们对样本代表性的评估带来了很大困难。
由于有技术和有经验的抽样专家可以最大限度地减少偏差,所以可以假设这种情况下抽取的样本是无偏的,这时就可以用抽样误差对样本进行评估。
评估样本的基本方法是,将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。
若两者之间的差别很小,则可认为样本的质量较高,代表性较大;若两者之间的差别十分明显,那么样本的质量和代表性就一定不会很高。
举例来说,如果从学校3万多名学生中抽取200名学生作为样本,同时,从学校有关部门得到下列统计资料:全校男生占学生总数的78%,女生占22%;本省学生占98%,外省学生占2%。那么,可以对抽出的200名学生进行这两方面分布情况的统计。
假定样本得到的结果为:男生占76%,女生占24%;本省学生占97%,外省学生占3%。比较之后,不难发现两者之间的差距很小,这在一定程度上说明样本的质量和代表性比较高。
从这样的样本中得到的结果就能够较好地反映和体现总体的情况。当然,用来进行对比的指标越多越好,各种指标对比的结果也是越接近越好。