因变量的对数是均匀分布的。如何计算均值的置信区间?

机器算法验证 置信区间 意思是 正态假设 对数正态分布
2022-03-30 05:10:44

我的因变量是极非正态分布的(Shapiro-Wilk 给出p=0.004)。然而,取它的对数给了我一些非常接近均匀分布的东西。当我绘制对数的累积频率时,它几乎是一条完美的直线(r=0.99)。

我想计算原始比例平均值的置信区间。即使它的对数显然不遵循钟形曲线,我可以将其视为对数正态数据吗?夏皮罗-威尔克拒绝H0,告诉我它不是正态分布的,但是出于所有意图和目的,它没有偏度。

如果不是,那么我可以使用什么来获得置信区间?

编辑:对于它的价值:

样本中有 24 个数据点。

我最初计划将有问题的变量与其他一些自变量进行比较,但是探索性数据分析发现它们之间绝对没有相关性。

我正在考虑使用此处描述的修改后的 Cox 公式 tandfonline.com/doi/pdf/10.1080/10691898.2005.11910638,但我不确定它在数据明显均匀分布的情况下是否有效。

3个回答

在回归问题中,Y 的边际分布无关紧要。Y | 的条件分布 X是最重要的。对于某些问题,这转化为检查模型残差的分布。

但是您的样本量太小,无法检查假设。使用具有更少假设的稳健方法会好得多,例如

  1. 如果您有一个 X 并且想要量化 X 和 Y 之间的关系强度,请使用等级相关系数
  2. 使用半参数回归模型,例如不假设 Y | 分布的比例优势模型。X 但仅对不同 X 值的条件分布的相对形状做出假设。这概括了秩相关和 Wilcoxon 型方法。
  3. 使用泛化通常模型的贝叶斯模型,例如,具有条件分布的非正态性或非恒定方差程度的先验分布。
  4. 按照上面的建议使用引导程序,但要小心,因为引导程序只是近似值。

日志接近均匀的东西有点歪斜,但不是特别难处理;大小为 24 的样本均值将非常接近正态分布。

如果它实际上是对数均匀的,我们可以很容易地计算出一个合适的间隔,但我实际上不会使用样本看起来像它的对数是均匀的这一事实。只有 24 个观察结果表明判断可能相当可疑,并且您当然不想对您用于推理的样本进行此类模型选择/识别,因为您没有很好的方法来解释效果其中(例如,它会使间隔比应有的更窄,但量化多少相当棘手)。如果它们实际上是对数均匀的,那么那些更窄的间隔将“诚实地”窄,但没有好的基础这么说。

n=24 处的模拟表明,对于与此类似的数据,未转换数据上的 95% 双尾 t 间隔应该表现得相当好(即,覆盖率非常接近 95%),即使这实际上并不正常,并且样本均值的分布略微偏斜。如果你想深入到尾部,这可能是一个更大的问题,但 95% 的两侧间隔应该没问题。

即使它的对数显然不遵循钟形曲线,我可以将其视为对数正态数据吗?

不,在这种情况下,您正在处理一个对数均匀分布的变量。

一种方法是使用引导程序,您可以在其中重复采样并替换并计算样本的均值。

查看这个问题的答案,它处理对数正态数据,但原理是相同的:

如何计算对数正态数据集均值的置信区间?