我的问题可以改写为“如何使用大数据评估抽样误差”,尤其是对于期刊出版物。这是一个说明挑战的例子。
从一个非常大的数据集(超过 100000 名独特的患者及其来自 100 家医院的处方药)中,我有兴趣估计服用特定药物的患者比例。得到这个比例很简单。它的置信区间(例如,参数或自举)非常紧/窄,因为 n 非常大。虽然很幸运拥有大样本量,但我仍在寻找一种方法来评估、呈现和/或可视化某些形式的错误概率。虽然放置/可视化置信区间(例如,95% CI:.65878 - .65881)似乎没有帮助(如果不是误导),但似乎也无法避免一些关于不确定性的陈述。
请让我知道你在想什么。我将不胜感激有关该主题的任何文献;即使样本量很大,也可以避免对数据过度自信。