最小( x )min(x)作为Xx

机器算法验证分位数

2022-03-15 08:51:07

我最近在一篇（非统计的，应用的）论文中发现了以下连续随机变量的分位数估计器：对于 100 长的向量 $x$ $\min(x)$ 估计 1% 的分位数。以下是它的执行方式：下面是来自分布的 100 长样本的 100,000 次模拟运行的 $\min(x)$ 垂直线是真实值，即分布的理论 1% 分位数。还给出了仿真代码。 $N(0,1)$ $N(0,1)$

M=10e5; n=100
quantiles=rep(NA,M)
for(i in 1:M){ set.seed(i); quantiles[i]=min(rnorm(n)) }
plot(density(quantiles),main="Kernel density estimate of quantiles from M=100,000 simulation runs"); abline(v=qnorm(1/n))

$t(3)$ 分布，该图看起来在性质上相似（只是一个示例）。在这两种情况下，估计量都是向下偏差的。然而，如果不与其他一些估计器进行比较，很难说它在其他方面有多好。因此我的问题是：是否有任何替代估计器在预期绝对误差或预期平方误差方面更好？

1个回答

在实践中，100 个观测值的最小值长样本用作 1% 分位数的估计量。我见过它叫做“经验百分位数”。

已知分布族

如果您想要不同的估计并且对数据的分布有所了解，那么我建议您查看订单统计中位数。例如，这个 R 包将它们用于概率图相关系数PPCC。您可以找到他们如何为某些发行版（例如正常发行版）执行此操作。您可以在 Vogel 1986 年的论文“The Probability Plot Correlation Coefficient Test for the Normal, Lognormal, and Gumbel Distributional Hypothese”中看到更多关于正态和对数正态分布的统计中位数的详细信息。

例如，从 Vogel 的论文 Eq.2 定义标准正态分布的 100 个观测样本的 min(x) 如下：其中估计CDF 的中位数：

M_{1} = Φ^{- 1} (F_{Y} (min (y)))

$M_1=\Phi^{-1}(F_Y(\min(y)))$

{\hat{F}}_{Y} (min (y)) = 1 - (1 / 2)^{1 / 100} = 0.0069

$\hat F_Y(\min(y))=1-(1/2)^{1/100}=0.0069$

我们得到以下值：，您可以将位置和比例应用到该标准法线，以获得您对第 1 个百分位数的估计：。 $M_1=-2.46$ $\hat\mu-2.46\hat\sigma$

下面是这与正态分布上的 min(x) 的比较：

顶部的图是第 1 个百分位数的 min(x) 估计量的分布，底部的图是我建议查看的图。我还粘贴了下面的代码。在代码中，我随机选择正态分布的均值和离散度，然后生成长度为 100 个观测值的样本。接下来，我找到 min(x)，然后使用正态分布的真实参数将其缩放到标准正态。对于 M1 方法，我使用估计的均值和方差计算分位数，然后再次使用真实参数将其缩放回标准。这样我可以在一定程度上解释均值和标准差估计误差的影响。我还用垂直线显示了真实的百分位数。

您可以看到 M1 估计器比 min(x) 更严格。这是因为我们使用了我们对真实分布类型的了解，即正态分布。我们仍然不知道真实的参数，但即使知道分布族也极大地改进了我们的估计。

八度码

你可以在这里在线运行它：https ://octave-online.net/

N=100000
n=100

mus = randn(1,N);
sigmas = abs(randn(1,N));
r = randn(n,N).*repmat(sigmas,n,1)+repmat(mus,n,1);
muhats = mean(r);
sigmahats = std(r);

fhat = 1-(1/2)^(1/100)
M1 = norminv(fhat)
onepcthats = (M1*sigmahats + muhats - mus) ./ sigmas;

mins = min(r);
minonepcthats = (mins - mus) ./ sigmas;

onepct = norminv(0.01)

figure
subplot(2,1,1)
hist(minonepcthats,100)
title 'min(x)'
xlims = xlim;
ylims = ylim;
hold on
plot([onepct,onepct],ylims)

subplot(2,1,2)
hist(onepcthats,100)
title 'M1'
xlim(xlims)
hold on
plot([onepct,onepct],ylims)

未知分布

如果您不知道数据来自哪个分布，那么在金融风险应用程序中使用了另一种方法。有两个约翰逊分布SU和 SL。前者适用于无界情况，例如 Normal 和 Student t，后者适用于下界情况，例如对数正态。您可以将约翰逊分布拟合到您的数据，然后使用估计的参数估计所需的分位数。Tuenter (2001)提出了一种矩匹配拟合程序，一些人在实践中使用该程序。

它会比 min(x) 更好吗？我不确定，但有时它在我的实践中会产生更好的结果，例如当你不知道分布但知道它是下界时。

其它你可能感兴趣的问题

上一篇MCMC算法可以估计配分函数（归一化常数）吗？下一篇数据集的定义是什么（出于 Bonferroni 的目的）？