两个和的比率是否正态分布?

机器算法验证 正态分布 置信区间 描述性统计 计算统计
2022-03-16 13:12:50

我遇到了这个问题,我不确定我的逻辑是否正确。假设我有一个客户支出的随机样本,并且我想估计给定商店在给定季度的市场份额(我将其定义为该商店的销售额与该季度所有其他竞争商店的销售额之和的比例)当地)。

我通过将感兴趣的商店中的总支出与总支出之和的比率来计算此统计数据。在等式形式中,感兴趣的统计数据是:

Market share=cXccYc
在哪里c是样本中的客户,Xc是顾客 c 在商店 X 上的总支出,并且Yc是顾客 c 在与商店相同类型的所有商店的总支出X.

假设我想估计这个估计的置信区间。我通过中心极限定理知道花费的总金额,cXccYc, 都是渐近正态分布的。

然而,由于市场份额是两个和的比率,我的直觉表明这个统计数据不会是渐近正态分布的(因为两个正态分布的比率通常不是正态分布的)。由于我对这个统计量的渐近分布犹豫不决,我决定通过自举来构建置信区间。

我在这个问题上的问题是,我是否不知道我可以使用的一些不错的渐近结果,我的逻辑是否正确,为什么我应该引导这个问题?

1个回答

实验。如前所述,如果分子和分母都是以零为中心的正态分布(此处未说明),则该比率是 Cauchy。

但是,如果分子和分母都以高于零的几个标准差为中心,则该比率通常也 远不正常。使用 R:

set.seed(1234)
x1 = rnorm(100, 50, 7)
x2 = rnorm(100, 70, 8)
ratio = x1/x2
shapiro.test(ratio)

        Shapiro-Wilk normality test

data:  ratio
W = 0.94094, p-value = 0.0002201

qqnorm(ratio); qqline(ratio, col="blue")

在此处输入图像描述

hist(ratio, prob=T, col="skyblue2")

在此处输入图像描述