样本轮换应注意哪些问题(抽样调查第14讲)

刀切法或其他复杂样本方差的估计方法可用于确定方差,然后在原假设成立且样本量足够大的情况下确定方差

样本轮换应注意哪些问题:抽样调查第14条(复杂样本下的数据分析方法;复杂样本的方差估计)

我们在数理统计中介绍了样本轮换应注意哪些问题

样本轮换应注意哪些问题(抽样调查第14讲)

列联表卡方检验可用于检验独立性。但样本需要独立分布。如果样本不符合独立分布,对列联表检验有什么影响?

例1调查原假设:样本轮换应注意哪些问题

家庭拥有电脑和男性父母的教育水平是独立的。调查数据如下。

检验统计的计算参考本文

最后得到的p值为0.169因此,保留原假设,认为两者是独立的。

接下来,将女性父母的学历纳入调查范围:样本轮换应注意哪些问题?

此时计算得到p值为0.037,原假设需要拒绝。换句话说,家庭是否有电脑与父母的教育有关。

矛盾的原因:这对夫妇的教育程度有很强的相关性,他们的答案是一样的,即样本中的观测值不是相互独立的,这违反了卡查的前提。

做法:只有父母才能单独判断样本是独立的。

例2(分层抽样中层权差异的显著影响)

某个地方有1万户,其中完整家庭9.9万户,不完整(离婚)家庭1000户,简单随机抽样从完整家庭中抽取990户,从不完整家庭中抽取100户,调查家庭中是否有子女犯罪。观察频率如下表所示:

根据分层抽样理论,该地区犯罪率的无偏估计为

但如果整体考虑1090户家庭,犯罪率为

后者的高原因:样本中完整家庭的观测值权数远远大于不完整家庭的观测值权数。此时,如果我们也直接使用列表卡检查来检查它们的独立性(实际计算发现p值很小,实际上被低估了p值的嫌疑)

改进方法:考虑权数列联表

对于上例,每个来自完整家庭的样本观测值权重为9.9万/990=100,每个不完整家庭的样本观测值权重为1000/10=10,所以

然后可以得到以下修正后的列联表。

大致过程:

计算不同层的权重(即每层的抽样比)分母是一个固定值,每层的样本量用上述权重加权,分子是网格中的数乘以权重目标:对修改后的列表进行检查统计。

考虑2×2注意情况

如果是独立的,上述统计量的值应为0。自然的想法是用修正后的值替换数值,即获得以下统计量

刀切法或其他复杂样本方差的估计方法可用于确定方差,然后在原假设成立且样本量足够大的情况下确定方差

平方之后得到一个卡方检验统计量,自由度为1。

对于一般情况,可以构造(r-1)(c-1)统计,其中r为行数,c考虑列中共选择两列c-1各种取法,行中选择两行r-1这个结果是通过种取法获得的。

结构的检验统计为,当原假设成立且样本量充分时,近似服从自由度为(r-1)(c-1)卡方分布。

刀切法将在第九章中介绍。基本思想是将样本随机分成几组,每组计算统计值,用这些值计算样本方差作为估计方差。例3(不等概抽样导致回归系数显著变化)

使用Macdonell1901年给出的数据集解释了上述回归分析过程。这个数据集记录了3000名罪犯的身高和左中指的长度。通过放回简单的随机抽样,提取200条记录,将左中指长度的回归方程拟合为

若根据身高不同采用以下不等概抽样:

修正的思想也是引入权重,然后估计回归系数

如果将估计量用于不等概抽样的样本,则非常接近等概抽样!

其中,权重与入样概率成比例,如取为,是第一个i样品单元的入样概率。特别是,如果是等概率抽样,则所有权重为1。

复杂样本的方差也可以估计(刀切法和随机组法)。如果采用刀切法,则采用刀切法t分布的自由度等于PSU减去层的数量;如果采用随机组方法,则t分布的自由度等于随机组数量减去1。

估计量的形式

形式上,加权最小二乘WLS如果命令,估计量的方差可以通过泰勒展开来估计:

各种抽样方法,各种抽样框的复杂估计,如估计、回归估计、答案调整等直接推导:就像第二章到第七章一样,暴力推导。

重新抽样:通过某些规则获得多个样本。估计量由每个样本计算,然后要求这些估计的样本方差作为方差的估计。(虽然不一定准确,但可行性很高)

实践:将提取的样本分为几组,每组提取的样本可视为原始样本的缩影,利用每组样本之间的离散程度来估计方差。

做法:按照给定的复杂抽样方法抽取K由此产生样本(放回)K独立估计量K平均个估计量作为最终估计量:

估计方差为

因为估计样本是平均的,所以在求完样本方差后,应该除以K.只要知道样本方差时整体方差的无偏估计,方差的估计是无偏的。

如果k如果较大,则在计算置信区间时使用正态分布分位数;如果k它相对较小,用于计算置信区间t分布分位数(自由度)k-1)上面是把K随机组看做K样本,也可以看作是一个整体。

联合估计法:把K随机组被视为样本,并以相同的方式构建估计量。如果估计的形式是线性的,那么联合估计和分别估计是相同的;如果估计不是线性的,则两者是不同的。

估计两种方差:

所以第二个估计的方差更大,实际中采用第二个方差估计更加保守。

我们需要提取独立随机组的方法K样本,如果你真的去调查,你会发现完成一个样本的提取并不容易。让我们介绍如何充分利用这一个样本来估计方差。

做法:将样本分成K由子样本构造的个子样本K个估计量。

当整体规模远大于样本量时,这些组可以被视为相互独立。同样使用K平均估计量作为最终估计量,样本方差除以K估计方差。

但这两种估计并不一定是无偏估计。为了保证随机组估计具有良好的统计性质,在划分随机组时必须遵循使每个随机组本质上具有与原始样本相同的抽样结构的基本原则。换句话说,随机组的形成应采用相同的抽样方法!

如果原始样本是简单的随机抽样或不放回,不放回πPS如果采用抽样方式提取,可以通过随机划分原始样本获得随机组,具体如下:确定每组的样本量为m=[n/k]用不放回的SRS或πPS不断抽取,每次抽取m若最后有多余q个样本,或弃之不用,或逐一添加到前面q如果原始样本是通过等概率或不等概率系统抽样提取的,那么随机组可以通过系统抽样形成随机组,具体如下:从1到1k提取整数,记为a第一第一单位a组,第二个单元进入第二个单元a 1组,以此类推...多阶抽样:使用前两种方法PSU分成K组。

对于分层抽样:如果您想估计层内方差,则根据采用的抽样方法使用前三种方法。如果您想估计整体方差,那么每个随机组本身必须是一个分层样本。此时,从每层中提取的样本应分为k组,然后在各层中任命一个随机组,形成原始样本的随机组。二重抽样:按方法(1)和(2)分为第一重样本K因为第二重样本是从第一重样本中提取的,所以自然分为K组。

如果只完成第一个样本,先划分,然后从每个组中提取m=[n/k]单元进入第二个样本。

两个考虑:估计精度和方差的稳定性。

一般采用变异系数标准CV*,选取K方差估计的变异系数相对较小,即

将n样品随机分成k组,记用n个别样本结构的估计量为,放弃第一个α组后结构的估计量为。

其中b与n无关,可以和θ有关。然后可以用作估计量来消除其中的1/。n从而降低偏差阶。然后面对它k作为最终估计:

估计方差也有两种:

估计形式:

估计方差:

沃尔特证明了这种方差估计是样本平均值的无偏估计。估计形式

当k=n时

此时,不同组之间不是独立的,因为样本平均值是线性估计的,所以刀切法的估计等于样本平均值。

方差估计公式:

这个方差估计形式和放回情形相同说明:放回情形,该方差估计无偏;不放回情形,该方差估计有偏。

方差的估计偏差如下:

如果f如果不能忽视,乘以1-f纠正偏倚。

另一种修正方法:

还是一样的套路:

方差估计:

例2(两阶段SRS估

PSU是街道,SSU是居委会,每个居委会调查人口x和出生婴儿的数量y,估计人口出生率,给出估计方差。

解:样本是自加权的,所以传统的比例估计是

但在理论部分的两个阶段,我们没有给出比估计的方差,所以下面是刀切法。

每次去掉一条街的数据,用上述公式计算估计量:

然后计算刀切法估计测量

样本方差除以5作为方差的最终估计。

之前是每次弃掉1个组来构造估计,也可以每次弃掉d个组,所以有一种弃法。估计量的结构方法与以前相同(弃后结构估计量->构造过渡量->过渡量求平均)。

有三个方差公式:

你可能还喜欢下面这些文章

毕业证样本网创作《样本轮换应注意哪些问题(抽样调查第14讲)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/174294.html

(0)
上一篇 2022年4月27日
下一篇 2022年4月27日

相关推荐

客服微信
客服微信
返回顶部