如果您的随机样本显然不具有代表性怎么办?

机器算法验证 采样 实验设计 推理 样本
2022-02-09 08:06:20

如果你随机抽取一个样本,你可以看到它显然不具有代表性,就像在最近的一个问题中一样。例如,如果总体分布应该在 0 附近对称,而您随机抽取的样本具有不平衡的正负观察值,并且这种不平衡在统计上是显着的,那您会怎么做?基于有偏差的样本,您可以对总体做出哪些合理的陈述?在这种情况下,合理的行动方案是什么?在我们的研究中,我们注意到这种不平衡是否重要?

3个回答

MLS(使用重要性抽样)给出的答案仅与您可以对分布做出的假设一样好。有限总体抽样范式的主要优势在于它是非参数的,因为它不对数据分布做出任何假设以对有限总体参数进行(有效)推断。

一种纠正样本不平衡的方法称为后分层您需要将样本分解为不重叠的类别(后层),然后根据已知的人口数据重新加权这些类别。如果已知您的总体的中位数为 0,那么您可以重新加权正面和负面观察,使它们的加权比例变为 50-50:如果您有一个不幸的 SRS,有 10 个负面观察和 20 个正面观察,您将给出负数权重为 15/10 = 1.5,正数权重 15/20 = 0.75。

确实存在更微妙的样本校准形式,您可以在其中校准样本以满足更一般的约束,例如使连续变量的平均值等于特定值。对称约束很难使用,尽管这也可能是可行的。可能是Jean Opsomer对此有所了解:他一直在为调查数据做很多内核估计工作。

我是这里的初级会员,但我想说丢弃和重新开始总是最好的答案,如果知道你的样本明显不具代表性,并且你知道不具代表性的抽样是如何产生的以及如何在第二次可能的情况下避免它。

如果你最终可能会在同一条船上,第二次取样有什么好处?

如果再次进行数据收集没有意义或成本过高,则您必须使用现有资源,尝试通过分层、插补、更高级的建模或其他方式来弥补不具代表性。您需要清楚地说明您以这种方式进行了补偿,为什么您认为它是必要的,以及为什么您认为它有效。然后在整个分析过程中处理因薪酬而产生的不确定性。(这会让你的结论不太确定,对吧?)

如果你不能这样做,你需要完全放弃这个项目。

这是一个部分答案,假设我们知道从中采样此外,我假设这些分布是不同的。如果样本实际上是通过获得的,但它们看起来是错误的:样本仍然是无偏的,并且任何适应(例如去除异常值)都可能会增加偏差。qpp

我假设你想找到一些统计数据例如,可能是分布的平均值,在这种情况下是恒等函数。如果你有样本sp=E{f(X)|Xp}s(p)f{x1,,xn}通过获得p,你可以简单地使用

sp1ni=1nf(xi).
但是,假设您只有(来自同一域)具有抽样分布的样本xiq. 然后,我们仍然可以得到一个无偏估计sp通过根据每个样本在每个分布下出现的相对概率对每个样本进行加权:
sp1ni=1np(xi)q(xi)f(xi).
这样做的原因是
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,
如预期的。这称为重要性抽样