机器算法验证 - 两个和的比率是否正态分布？ - 吾爱随笔录

我遇到了这个问题，我不确定我的逻辑是否正确。假设我有一个客户支出的随机样本，并且我想估计给定商店在给定季度的市场份额（我将其定义为该商店的销售额与该季度所有其他竞争商店的销售额之和的比例）当地）。

我通过将感兴趣的商店中的总支出与总支出之和的比率来计算此统计数据。在等式形式中，感兴趣的统计数据是：

M a r k e t s h a r e = \frac{\sum_{c} X_{c}}{\sum_{c} Y_{c}}

$Market \ share = \frac{\sum_{c} X_c}{\sum_c Y_c}$ 在哪里

c

$c$ 是样本中的客户，

X_{c}

$X_c$ 是顾客 c 在商店 X 上的总支出，并且

Y_{c}

$Y_c$ 是顾客 c 在与商店相同类型的所有商店的总支出

X

$X$ .

假设我想估计这个估计的置信区间。我通过中心极限定理知道花费的总金额， $\sum_{c} X_c$ 和 $\sum_c Y_c$ , 都是渐近正态分布的。

然而，由于市场份额是两个和的比率，我的直觉表明这个统计数据不会是渐近正态分布的（因为两个正态分布的比率通常不是正态分布的）。由于我对这个统计量的渐近分布犹豫不决，我决定通过自举来构建置信区间。

我在这个问题上的问题是，我是否不知道我可以使用的一些不错的渐近结果，我的逻辑是否正确，为什么我应该引导这个问题？