有关删除组折刀的详细信息

机器算法验证 采样 方差 折刀
2022-04-13 12:51:14

我正在阅读 Phillip S. Kott 关于 DAGJK 的论文:

删除组折刀。官方统计杂志,17 (4):521-526。(全文免费提供)

我没有太多的调查/抽样背景,所以我在理解一些论文时遇到了一些麻烦。

  1. 究竟什么是初级样本单位 (PSU)?一个例子会非常有帮助。
  2. 在第二部分,Kott 假设并且他定义了,其中中的所有 PSU 求和。他是如何得出方差公式t=h=1Hj=1nhthjqhj=thjth+th+=thg/nhhVar(th+)=nhnh1j=1nhqhj2
1个回答
  1. PSU,即初级抽样单位,是您在多阶段抽样的第一阶段抽样的对象或一组对象。通常在大规模的国家研究中,这可能是一个县或人口普查区。然后你会下降到城市街区(二级抽样单位)、住宅、家庭和个人的水平。因此,当您对阿拉巴马州的 Autauga 县(美国 3K+ 县之一,标准列表中的第一个县)进行抽样时,您必须将居住在其中的 50,000 人视为一个单位来进行方差估计。当然,您可能会对该县进行二次抽样,最终采访可能是 10 人。然而,对方差的大部分贡献来自第一阶段,尤其是当 PSU 的观察结果彼此相似时。

  2. 这是聚类样本方差的标准公式;一个常识,如果你喜欢的话。如果没有第一原理的推导,没有简单的解释。您将不得不查看标准的调查统计书籍,例如Lohr 2009Korn & Graubard 1999Thompson 1997(按照复杂性和数学严谨性的递增顺序)。

有限总体抽样的首要原则实际上与您在统计学中学到的任何东西(无论是主流还是贝叶斯或机器学习)都是正交的。你在样本元素上测量的东西被认为是固定的(某人的体重或身高或眼睛的颜色;这是有道理的,除了一些测量误差:你明天的身高不应该与今天的身高不同,那么它怎么可能是随机的? )。然而,随机的是将有限总体元素纳入样本的指标。换句话说,如果你谈论从美国人口中抽样 1000 人,你谈论的是一个 3 亿维向量,对于大多数没有进入样本的人来说,这个向量为零,而对于被抽样的 1000 人来说,这个向量是零。因此,您在样本调查世界中会遇到的概率空间是离散的(尽管组合很大),样本统计的抽样分布也是如此,尽管后者有时可以很好地近似于正态分布。然而,CLT 类型的理由在调查统计中要复杂得多,因为适当的 CLT 仅在特定抽样设计的有限背景下得到证明。您需要习惯于根据总数进行思考(因为它们是随机元素的唯一线性统计);加权平均值是总体平均值的有偏估计量(因为它是比率估计量,即非线性统计量);并且方差估计比点估计复杂一个数量级。样本统计的抽样分布也是如此,尽管后者有时可以很好地近似于正态分布。然而,CLT 类型的理由在调查统计中要复杂得多,因为适当的 CLT 仅在特定抽样设计的有限背景下得到证明。您需要习惯于根据总数进行思考(因为它们是随机元素的唯一线性统计);加权平均值是总体平均值的有偏估计量(因为它是比率估计量,即非线性统计量);并且方差估计比点估计复杂一个数量级。样本统计的抽样分布也是如此,尽管后者有时可以很好地近似于正态分布。然而,CLT 类型的理由在调查统计中要复杂得多,因为适当的 CLT 仅在特定抽样设计的有限背景下得到证明。您需要习惯于根据总数进行思考(因为它们是随机元素的唯一线性统计);加权平均值是总体平均值的有偏估计量(因为它是比率估计量,即非线性统计量);并且方差估计比点估计复杂一个数量级。然而,在调查统计中要复杂得多,因为适当的 CLT 仅在特定抽样设计的有限背景下得到证明。您需要习惯于根据总数进行思考(因为它们是随机元素的唯一线性统计);加权平均值是总体平均值的有偏估计量(因为它是比率估计量,即非线性统计量);并且方差估计比点估计复杂一个数量级。然而,在调查统计中要复杂得多,因为适当的 CLT 仅在特定抽样设计的有限背景下得到证明。您需要习惯于根据总数进行思考(因为它们是随机元素的唯一线性统计);加权平均值是总体平均值的有偏估计量(因为它是比率估计量,即非线性统计量);并且方差估计比点估计复杂一个数量级。加权平均值是总体平均值的有偏估计量(因为它是比率估计量,即非线性统计量);并且方差估计比点估计复杂一个数量级。加权平均值是总体平均值的有偏估计量(因为它是比率估计量,即非线性统计量);并且方差估计比点估计复杂一个数量级。

虽然 Phil Kott 是一个非常聪明的人,并且写得很好,但我怀疑这篇论文是否是调查统计数据的一个很好的起点。我猜你一定是被狠狠地扔进了这本书,不得不从蓝天中读出来。