如何确定抽样调查的样本量(抽样调查第05讲(分层抽样)

如果有些层的方差很大,成本也不高,那么通过最佳分配计算分配给该层的样本量很可能超过该层的总量。

抽样调查第05讲(分层抽样:如何确定抽样调查的样本量?

各层样本量分配、总样本量确定、抽样效果分析)

如何确定抽样调查的样本量(抽样调查第05讲(分层抽样)

本节将考虑给定总样本量n如何确定各层样本量?n1,n2,...,nL.

通常有几种分配思路:如何确定抽样调查的样本量?

常数分配;与各层方差成比例;与各层总量成比例(即与层权成比例);与层权成比例;*层标准差成比例。若要使用各层方差信息,则需进行预调查。

常数分布是每层样本量相同,无论3721;但是,如果一层的总量很小,另一层的总量很大,那么我们自然想在大总量的层中提取更多,这与层权成比例;有时,虽然一层的总量很大,但个体之间的差异并不大。此时,无需提取更多。此时,可与各层方成比例提取;此外,还可以结合层权与标准的差异*提取层标准差成比例。如何确定抽样调查的样本量?

10个样本的结果从四个层中提取

若按层权成比例,则第三、四层样本量不足11、20,则需再次提取;若按层权×如果层标准差,第三层样本量不足23,需要再次提取。样本量足够的层不需要再提取。

在样本量分配的原则下,我们将讨论估计量的性质。

此时,每层抽样比等于总抽样比n/N:

我们以前介绍过的处理方法

可以看出,在比例分配下,对分层抽样平均值的简单估计是总样本平均值。也就是说,如果我们按比例分配样本量,那么在估计样本平均值时,我们可以直接找到所有数据的平均值,而不需要在加权前要求每个层的平均值。这样的样本被称为自加权样本,无论每个个体处于哪个层,样本的概率都是相同的。

进一步计算均值估计的方差:

用层权代替其中一个;用总抽样比代替各层的抽样比;使用(1-f)/n=1/n-1/N可以进一步写成

对于比例的估计,各层的方差为

假设成本是关于各层样本量的线性函数:

调查的固定费用不能通过样本量分配来降低。

为此,我们先回到估计量的方差:

利用Wh=Nh/N,(1-f)/n=1/n-1/N可以看出,第二项和每层样本量nh无关,是固定量。

记方差公式中的第一项是V。我们的结构目标是同时优化成本和方差:C'V即成本和方差乘积:

定理:使上述目标函数达到最小样本量分配方案

从结果上看,每层样本量和W*S,即层权*层标准差成正比,与成本权重系数的平方成反比。

分母只是一个正则化常数,不要害怕,只要看分子,分析样本量和什么成比例。证明:先用层权的定义乘一除一

将目标C'V第二项利用上式处理,并代入定义

接下来用柯西施瓦兹不等式得到:

最后得到了一个常值下界,柯西施瓦兹不等式取等条件为定值

这也证明了定理结论:每层样本量与层权成正比,与每层标准差成正比,与成本系数的平方成正比。

若某一层满足,则该定理可以得出一些熟悉的结论:

单元数多,内部差异大,成本省,所以要多抽取这层。

如果费用函数不是线性的,可以用卡尔松不等式求得一个目标函数的下界,假设费用函数是

那么最小化目标是

使用卡尔松不等式:

卡尔松不等式形式:

n项求和式连乘积≥n个求和式通项连乘,开放n二方,再求和取n次方.2在这种情况下,柯西不等式取等号的条件是所有求和的通项成比例,但这里似乎没有等号。

注:拉格朗日乘数法可以解决!构建拉格朗日函数

对nh求偏导,使导数为0

因为我们只关注nh与什么成比例,所以把常数和λ忽略一切,然后得到它

如果在3.5.2假设各层的成本系数相同,就会得到Neyman分配。每层的样本量与层权和层标准差的乘积成正比。

接下来具体考察Neyman估计量的方差分配。

定理:Neyman在分配下,均值估计的方差为

证明:在Neyman在样本量和层权的分配下×层标准差成正比,总样本量为n每层的样本量为

前面3.5.2我们已经利用了节日(1-f)/n=1/n-1/N得到了

将其与定理中的结果进行比较,发现两者的第二项是相同的,只要证明第一项是相同的。事实上,只需要替换表达式:

别忘了,上面的推导除了约分什么都没做。综上所述:公式虽多,但推导过程的核心在于(1-f)/n=1/n-1/N,以及层权与各层总量的关系。有时公式中有层权的平方需要用每层总量/总量代替其中一层权。

事实上,无论是比例分配、最佳分配还是内曼分配,最终的结论都很容易记住,因为它非常符合我们的直观认知,即使你可以很容易地完成相应的练习或做实际的应用,而不需要通过这些复杂的推导来直接记住结论。但就像我第一次看到这些公式一样,如果你不真正推断出来,你会被这些术语和复杂的公式吓坏,直到你亲自推断或遇到一个愿意与你分享结论的人。

有时我们需要提取更多的样本。如果有些层的方差很大,成本也不高,那么通过最佳分配计算分配给该层的样本量很可能超过该层的总量。

如果发生这种情况,我们将提取所有的层,计算需要多少样本量,然后通过最佳分配到其他层。如果第二轮最佳分配下每层样本量不超过总量,则可以结束。否则,需要提取所有异常层,然后最好将剩余样本量分配到每层。

此时估计的方差为

这意味着只对样本量小于总量的层进行总和,因为样本量等于总量的层方差为零,层间相互独立。根据最佳分配公式计算的样本量通常不是整数,我们必须四舍五入才能得到整数。现在检查这样做是否会对估计量的方差产生很大的影响。

假设每层实际样本量为,平均估计量的方差为

本文第三次出现了上述公式。实际方差与理论最小方差之间的差异

第一步是注意方差表达式的第二项与各层样本量的选择无关。两者是一样的,只有第一项之间的差异;第二步是使用最佳样本量的表达式来消除求和;第三步是巧妙地和谐n:另一方面,在最小方差中假设总量很大,那么

用差式除以最小方差,得到

利用获得利用≤”以上得到的便是方差增大的上界,观察g表达式是实际样本量与理论样本量的相对误差。在四舍五入下,分子不会超过0.5,而且分母通常比较大,所以一般不大。

但有时候用作上界太保守了,就像我们用切比雪夫不等式来估计随机变量大于一个数的概率一样。

对于第三层,其g为0.43,g2为0.18,也就是说由g2相对增量给出方差的上界为18%。但事实上,方差的增量是32.9/340=9.7%,高估了近一倍。

从这个例子中也可以看出,即使实际样本量偏离最佳样本量,最终方差的影响也不是很大。

在实际应用中,我们不仅会调查一个问题,还会有一些辅助变量,除了我们最关心的问题。如果我们寻求每个变量的最佳分配,那么每个变量都有不同的样本量分配,这将相对麻烦。

比例分配:比例分配是处理多变量的常用手段,它不关心各层各变量的方差,只关心各层的总量,处理起来非常方便。

平均法:如果我们真的需要使用最佳分配来缩小方差,那么我们可以在方便和精度之间妥协。

做法:我们关心的k个变量找到相应的最佳分配,最终样本量分配就是这样k各层样本量的平均分配为个变量。

查特吉方法:我们的最终调查对每个问题都采用相同的样本量分配方案,这不可避免地导致一些问题的调查不是最佳分配,相应地会增加方差,自然希望所有问题的方差增加最小。

利用以前的结果,第一j问题的方差相对增加为

其中约等号部分利用之前的公式,将替换为,替换为:

注:是实际样本量,是理论样本量可以计算上述方差增量的各个特征,平均最小化,等价

其中是已知的,要确定的是。接下来技巧性比较强,首先将n写为求和并添加到上面,这并不影响最小化目标。然后使用柯西施瓦兹不等式

柯西施瓦兹:平方和乘积≥乘积和平方最终获得常值下界,取等条件

也就是说,量和k该层样本量的平方变量与开根号成比例。

花么大的努力,结果和平均法很像。在平均法中,直接取每层样本量k查特吉法则是先求平方,再求开方,也可以称之为某种意义上的平均。耶茨法1:如果不同变量的最佳分配差别很大,没有明显的妥协结果,就需要引入一些分配标准。

耶茨方法1的目的是将所有变量估计的方差加权并最小化(可以给重要变量高权重,也可以给预期方差大的问题设置高权重)。

加权和为方差

第三个等号是求和指标的交换,分为两项,第二项是层权和约定;请注意,在获得第三个等号的公式中,第二项是一个已知的数量并记录下来L0考虑到线性成本,优化成本和方差:

因为L0是定值,所以选择优化和3.5.2使用柯西施瓦兹不等式(现在应该自然会想到用这个)的最佳分配方法是一样的,获得下界的条件是

整理得到

此时,各层样本量仍与层权成正比,与成本系数的平方成正比。但原标准差取代了加权后的结果。

耶茨方法二:当每个问题都有最大的方差约束时,可以使用这种方法。

希望在满足这一限制的情况下,将总成本降到最低,这成为一个优化问题。线性规划方法可以用来介绍耶茨如何获得近似解。

思路:如果一个问题的方差限制很宽松,那么它的方差权重应该在耶茨方法一中相对较小,所以取第一j一个问题的权重可以成正比。

例如,总数很大。现在研究两个问题,第一个问题的方差不超过0.04,第二个问题的方差不超过0.01,样本量的试分配。

解:首先确定总样本量:

由于N很大,估计量方差的第二项近似0

但这里的V若分别取0.04或0.01,得到的n分别是625和676。第一个问题不符合内曼分配的方差约束。

因此,考虑整合两个问题a1=0.2,a2=0.8(与方差约束的倒数成比例,和为1)计算加权后的方差

整合后的信息也可以在各层获得标准差,然后确定总样本量为

然后计算,只需按此比例分配各层样本量即可。

表中使用耶茨方法一的近似结果,使用线性规划方法迭代的结果,可见两者差别不大。3.5本节将讨论如何确定总样本量。

假设,在3.5节日解决的问题,在给定的前提下,我们将是最好的n。一般来说,我们对精度有要求,但精度问题最终归因于方差。

回顾一下,方差、绝对误差和相对误差有以下关系t为正
态分布上α/2分位数估计量的方差为

{n}

前面两步不用多说,最后一步利用从中可以解出n关于V的表达式

{n}

当然也可以把V换成绝对误差限或相对误差限。

{n}

你可能还喜欢下面这些文章

毕业证样本网创作《如何确定抽样调查的样本量(抽样调查第05讲(分层抽样)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/177478.html

(0)
上一篇 2022年4月28日
下一篇 2022年4月28日

相关推荐

客服微信
客服微信
返回顶部