抽样调查法有几种,抽样调查的基本原则是

首页 > 教育 > 作者:YD1662024-05-19 22:40:03

【引言】

与其他统计学软件比较,R能够免费使用且功能强大,集统计分析、可视化和建模等于一体,可满足医学科研的全部需求

在该系列学习文章中,我们将带您通过实践来学习如何使用R语言进行医学统计分析,助力科学研究。

【正文】

按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,保证样本的代表性。随机抽样法就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原则进行的抽样调查,被称为是一种“等概率”。

这里介绍了随机抽样的五种形式,即简单随机抽样、分层抽样、整群抽样、系统抽样和多级抽样。

一、简单随机抽样

简单随机抽样(simple random sampling , SRS)是最简单的概率抽样方法,也是其他抽样方法的基础,指从一个单元数为 N 的总体中逐个抽取单元并且无放回,每次都在所有尚未进入样本的单元中等概率地抽取,直到 n个单元抽完。

适用场景:总体N较小;总体方差S2与任意局部方差基本相当的情况。

以 iris 数据集(3种鸢尾花形态数据)为例

抽样调查法有几种,抽样调查的基本原则是(1)

二、分层抽样

分层抽样(stratified sampling)是指先按照某种规则把总体划分为不同的层,然后在层内再进行抽样,各层的抽样之间是独立进行的。

如果各层内是简单随机抽样,则称为分层随机抽样,分层抽样的估计是先在各层内进行的,再由各层的估计量进行加权平均或求和,从而得出总体的估计量。

适用场景:层间有较大的异质性,每层内的个体具有同质性的总体;

抽样调查法有几种,抽样调查的基本原则是(2)

主要函数:

strata(data,stratanames=NULL,size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALSE)

参数说明:

stratanames: 进行分层所依据的变量名称。

size: 各层中要抽出的观测样本数。

method:选择4中抽样方法,分别为无放回(srswor)、有放回(srswr)、泊松(poisson)、系统抽样(systematic),默认为srswor。

pik: 设置各层中样本的抽样概率。

description: 选择是否输出含有各层基本信息的结果。

三、整群抽样

整群抽样(cluster sampling)是指先把总体中的个体划分成称作群的单个组,总体中的每一个个体属于且仅属于某一群。以群为单位抽取一个简单随机样本。

当群中的个体不同质时,整群抽样得到的结果最佳。在理想状态下,每一群是整个总体小范围内的代表。整群抽样的值依赖于每一群对整个总体的代表性。如果所有的群在这个意义上是同质的,则抽取小量的群就可以得到关于总体参数的好的估计。

适用场景:群间差异小、群内各个体差异大、可以依据某种特征差异来划分的群体;

抽样调查法有几种,抽样调查的基本原则是(3)

四、系统抽样

系统抽样(systematic sampling)是指先将总体中的抽样单元按某种次序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。

特别地,如果在抽取初始单元后按相等的间距抽取其余样本单元,则称为等距抽样。

适用场景:容量很大且个体的排列是按照随机顺序排列的总体;

抽样调查法有几种,抽样调查的基本原则是(4)

主要函数:

inclusionprobabilities(a,n) 和 UPrandomsystematic(pik,eps=1e-6)。

参数说明:

a:正数向量。

n:样本量。

pik:包含概率向量。

eps:默认情况下,控制值等于1e-6。

五、多级抽样

多级抽样(multi-stage sampling)可以看作整群抽样的发展,在抽得初级抽样单元后,并不调查其全部次级单元,而是再进行抽样, 从入选的初级单元中抽选次级单元,这种抽样方法称为二阶段抽样。

二阶段的第一阶段指抽取初级单元,第二阶段是指抽取次级单元(在二阶段抽样中,也就是基本抽样单元)。

类似地 ,可以定义三阶段抽样:先抽取初级单元,在其中继续抽取次级单元,在抽中的次级单元中再抽取三级单元(基本单元)。依此类推,可定义四阶段抽样等。二阶及二阶以上抽样统称为多级抽样。

适用场景:分布情况复杂,不易从总体中直接抽取调查单位作为样本的情况;

以两阶段整群抽样为例:

抽样调查法有几种,抽样调查的基本原则是(5)

mstage(data, stage=c("stratified","cluster",""), varnames, size,

method=c("srswor","srswr","poisson","systematic"), pik, description=FALSE)

参数说明:

data:数据帧或数据矩阵;其行数为N,即总体大小。

stage:每个阶段的抽样类型列表;可能的值为:分层数据 ( stratified) ,整 群 数 据 ( cluster) ,无分层和无分类的数据 (填写“”)。对于多级元素采样,此参数不是必需的。

varnames:分层或聚类变量列表。

size:样本大小列表(按多级抽样中样本出现的顺序)。

method:各阶段选择单元的方法列表;执行以下方法:分别为无放回(srswor)、有放回(srswr)、泊松(poisson)、系统抽样(systematic),默认为srswor。如果未指定方法,则默认为“srswor”。每个阶段的方法可能不同。

pik:选择概率或用于计算它们的辅助信息的列表;此参数仅用于不等概率抽样(泊松,系统)。如果提供了辅助信息,该函数将使用inclusionprobabilities函数来计算这些概率。

Description:如果消息的值为TRUE,则输出该消息;该消息给出所选单位的数目和总体中单位的数目。默认情况下,其值为FALSE。



栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.