样本量很大时的置信区间

机器算法验证 置信区间 大数据 报告
2022-03-14 19:41:17

我的问题可以改写为“如何使用大数据评估抽样误差”,尤其是对于期刊出版物。这是一个说明挑战的例子。

从一个非常大的数据集(超过 100000 名独特的患者及其来自 100 家医院的处方药)中,我有兴趣估计服用特定药物的患者比例。得到这个比例很简单。它的置信区间(例如,参数或自举)非常紧/窄,因为 n 非常大。虽然很幸运拥有大样本量,但我仍在寻找一种方法来评估、呈现和/或可视化某些形式的错误概率。虽然放置/可视化置信区间(例如,95% CI:.65878 - .65881)似乎没有帮助(如果不是误导),但似乎也无法避免一些关于不确定性的陈述。

请让我知道你在想什么。我将不胜感激有关该主题的任何文献;即使样本量很大,也可以避免对数据过度自信。

4个回答

这个问题也出现在我的一些研究中(作为流行病建模者,我有幸制作自己的数据集,并且使用足够大的计算机,它们基本上可以任意大小。一些想法:

  • 在报告方面,我认为您可以报告更精确的置信区间,尽管这样做的实用性确实有点可疑。但这并没有错,并且对于这种规模的数据集,我认为没有太多要求报告要求置信区间然后抱怨我们真的都希望它们四舍五入到两位数等。
  • 在避免过度自信方面,我认为关键是要记住精确度准确度是不同的东西,避免试图将两者混为一谈。当你有一个大样本时,很容易被吸引到估计效果的精确程度,而不是认为它也可能是错误的。我认为这是关键——有偏差的数据集在 N = 10、100、1000 或 100,000 时会有偏差。

大数据集的全部目的是提供精确的估计,所以我认为你不需要回避这种精确度。但是你必须记住,你不能仅仅通过收集大量的坏数据来改善坏数据。

这个问题出现在我自己的手稿中。

1. 报告选项: 如果您只有一个或几个 CI 需要报告,那么报告“(例如,95% CI:.65878 - .65881)”并不过分冗长,它突出了 CI 的精确度。但是,如果您有许多 CI,那么一揽子声明可能对读者更有帮助。例如,我通常会报告“在这个样本量下,每个比例的 95% 置信误差范围小于 +/- .010”。我通常在方法中或在表或图的标题中或在两者中报告类似的内容。

2. 即使样本量很大,也要避免“过度自信”: 对于 100,000 个样本,中心极限定理将在报告比例 CI 时保证您的安全。所以,在你描述的情况下,你应该没问题,除非有其他我不知道的假设违规(例如,违反 iid)。

不要报告置信区间。而是报告确切的样本量和比例。读者将能够以任何他希望的方式计算他自己的 CI。

考虑 100 家不同医院的比例不收敛到相同平均值的可能性。您是否测试了组间方差?如果医院之间存在可测量的差异,则不支持样本是从共同的正态分布生成的假设,您不应将它们合并。

但是,如果您的数据确实来自正态分布的大样本,那么您将不会找到有用的“关于不确定性的陈述”作为数据的属性,而是在反思为什么或为什么不应该概括您的统计数据时——由于您应该指出的收集中的一些固有偏见,或缺乏平稳性等。