首先让我说,我一直对这个网站上的回复质量印象深刻。与我遇到的大多数讲师或教科书相比,你们在解释困难概念方面做得更好。
关于我的问题/场景。
我的基本目标是证明置信区间确实有效,我所说的工作是指其中的一定百分比,比如 95%,实际上包括总体均值(假设我们首先知道总体均值)。
这是我的设置。
A) 我在 Excel 中生成了一个数据集,该数据集由 20 个样本组成,每个样本有 64 个观察值(即 n = 64),代表价格。
B) 价格最低为 25美元,最高为 100美元。
C)下面是我发现的最好的 Excel 公式,它可以生成接近正态分布的东西。如果有人对此有任何想法,请告诉我,因为我并不完全相信它是如何/为什么起作用的。我只知道 RandBetween 会产生均匀分布,因此对于这些目的没有用。
=NORMINV(NORMDIST(MinX,Mean,StDev,TRUE)+RAND()*NORMDIST(MaxX,Mean,StDev,TRUE)-NORMDIST(MinX,Mean,StDev,TRUE)),Mean,StDev)
D) 我选择62.50美元作为人口平均数,仅仅是因为它是 25 和 100 的平均值。
E) 我选择12美元作为总体的标准差。
F) 我选择了 95%(即 z-score 1.96)作为置信水平。
这是我的 20 个置信区间。带有星号的那些不包含62.50美元的总体平均值。
S1 66.19 60.31
S2* 62.30 56.42
S3 66.46 60.58
S4* 70.38 64.50
S5 63.24 57.36
S6* 61.23 55.35
S7 63.95 58.07
S8 65.89 60.01
S9 67.86 61.98
S10 64.17 58.29
S11 65.59 59.71
S12 67.31 61.43
S13 67.61 61.73
S14 66.55 60.67
S15 66.03 60.15
S16 63.77 57.89
S17 64.63 58.75
S18 65.35 59.47
S19 66.19 60.31
S20 64.32 58.44
正如您可能已经猜到的那样,问题在于:理论上,如果这些区间中有 95% 包含总体均值,那么 20 个区间中只有 1 个区间没有包含它。相反,有 3 个。这不是一个孤立的事件。如果我使用 F9 反复重新生成价格,它仅在 70% 左右的时间达到 19 或更大的阈值,并且某些迭代会产生 20 个 20 个区间,其中包含的平均值低至 20 个中的 16 个。
我的问题是为什么?
到目前为止,这是我已经消除的可能问题。
a) 我将样本数量增加到 100,样本数量增加到 1281,得到了相同的结果,所以我不认为这是样本数量的问题。128,100 个数据点似乎就足够了。
b) 我执行了 10,000 次迭代并使用宏记录它们,仍然得到与以前相同的大约 70% 的“成功率”。
c) 我还使用 90% 和 99% 的置信水平复制了上述所有内容。90% 仅导致 18 个或更多间隔包含总体平均 63% 的时间。99% 的置信水平仅在大约 87% 的时间里管理了这一点。
d) 我以直方图的形式将数据绘制成图表,以直观地检查它的正态性,我发现偏度、尖峰等之间没有视觉相关性,以及更多或更少的区间是否无法包含总体均值。此外,我尝试了一个正态性的正态分位数图测试,我在 128.1k 数据点示例中在线找到,我确实发现任何知道该怎么做的人都发现了非常轻微的尖峰。
以下是可能以我不理解的方式影响结果的可能问题。
a) 分布被“截断”。对于像我这样的外行人来说,我发现很少能解释如何计算这种分布的置信区间,或者即使这种方法适用于截断的数据。我什至无法就截断是否使其不符合严格意义上的正常条件达成一致。
b) Excel 的 Norminv、Normdist 和 Rand 函数。Excel 是否根本无法生成具有使该示例正常工作所需的准确度的随机正态分布数据?请注意,我还尝试了 Excel 的数据分析-> 随机数生成工具,得到的结果与我上面包含的 Excel 公式几乎相同。
最后,我能够始终如一地获得 90% 的置信区间以包含总体均值的唯一方法是使用 95.7% 的置信水平(即 z 分数 2.025),95% 需要 99% 的 CL,而 99%需要 99.5% 的 CL。
任何关于这里发生的事情的想法将不胜感激。如果有人能解决这个问题,那就是你们。
谢谢,
万一有人碰巧看到了这个帖子,这里是两个主要 excel 电子表格的屏幕截图;一个版本只有值,另一个版本只有公式。










