在实践中,100 个观测值的最小值长样本用作 1% 分位数的估计量。我见过它叫做“经验百分位数”。
已知分布族
如果您想要不同的估计并且对数据的分布有所了解,那么我建议您查看订单统计中位数。例如,这个 R 包将它们用于概率图相关系数PPCC。您可以找到他们如何为某些发行版(例如正常发行版)执行此操作。您可以在 Vogel 1986 年的论文“The Probability Plot Correlation Coefficient Test for the Normal, Lognormal, and Gumbel Distributional Hypothese”中看到更多关于正态和对数正态分布的统计中位数的详细信息。
例如,从 Vogel 的论文 Eq.2 定义标准正态分布的 100 个观测样本的 min(x) 如下:
其中估计CDF 的中位数:
M1=Φ−1(FY(min(y)))
F^Y(min(y))=1−(1/2)1/100=0.0069
我们得到以下值:,您可以将位置和比例应用到该标准法线,以获得您对第 1 个百分位数的估计:。M1=−2.46μ^−2.46σ^
下面是这与正态分布上的 min(x) 的比较:

顶部的图是第 1 个百分位数的 min(x) 估计量的分布,底部的图是我建议查看的图。我还粘贴了下面的代码。在代码中,我随机选择正态分布的均值和离散度,然后生成长度为 100 个观测值的样本。接下来,我找到 min(x),然后使用正态分布的真实参数将其缩放到标准正态。对于 M1 方法,我使用估计的均值和方差计算分位数,然后再次使用真实参数将其缩放回标准。这样我可以在一定程度上解释均值和标准差估计误差的影响。我还用垂直线显示了真实的百分位数。
您可以看到 M1 估计器比 min(x) 更严格。这是因为我们使用了我们对真实分布类型的了解,即正态分布。我们仍然不知道真实的参数,但即使知道分布族也极大地改进了我们的估计。
八度码
你可以在这里在线运行它:https ://octave-online.net/
N=100000
n=100
mus = randn(1,N);
sigmas = abs(randn(1,N));
r = randn(n,N).*repmat(sigmas,n,1)+repmat(mus,n,1);
muhats = mean(r);
sigmahats = std(r);
fhat = 1-(1/2)^(1/100)
M1 = norminv(fhat)
onepcthats = (M1*sigmahats + muhats - mus) ./ sigmas;
mins = min(r);
minonepcthats = (mins - mus) ./ sigmas;
onepct = norminv(0.01)
figure
subplot(2,1,1)
hist(minonepcthats,100)
title 'min(x)'
xlims = xlim;
ylims = ylim;
hold on
plot([onepct,onepct],ylims)
subplot(2,1,2)
hist(onepcthats,100)
title 'M1'
xlim(xlims)
hold on
plot([onepct,onepct],ylims)
未知分布
如果您不知道数据来自哪个分布,那么在金融风险应用程序中使用了另一种方法。有两个约翰逊分布SU和 SL。前者适用于无界情况,例如 Normal 和 Student t,后者适用于下界情况,例如对数正态。您可以将约翰逊分布拟合到您的数据,然后使用估计的参数估计所需的分位数。Tuenter (2001)提出了一种矩匹配拟合程序,一些人在实践中使用该程序。
它会比 min(x) 更好吗?我不确定,但有时它在我的实践中会产生更好的结果,例如当你不知道分布但知道它是下界时。