最小( x )min(x)作为Xx

机器算法验证 分位数
2022-03-15 08:51:07

我最近在一篇(非统计的,应用的)论文中发现了以下连续随机变量的分位数估计器:对于 100 长的向量xmin(x)估计 1% 的分位数以下是它的执行方式:下面是来自N(0,1)分布的 100 长样本的 100,000 次模拟运行的min(x)垂直线是真实值,即N(0,1)分布的理论 1% 分位数。还给出了仿真代码。N(0,1)N(0,1)

在此处输入图像描述

M=10e5; n=100
quantiles=rep(NA,M)
for(i in 1:M){ set.seed(i); quantiles[i]=min(rnorm(n)) }
plot(density(quantiles),main="Kernel density estimate of quantiles from M=100,000 simulation runs"); abline(v=qnorm(1/n))

t(3)分布,该图看起来在性质上相似(只是一个示例)。在这两种情况下,估计量都是向下偏差的。然而,如果不与其他一些估计器进行比较,很难说它在其他方面有多好。因此我的问题是:是否有任何替代估计器在预期绝对误差或预期平方误差方面更好?

1个回答

在实践中,100 个观测值的最小值长样本用作 1% 分位数的估计量。我见过它叫做“经验百分位数”。

已知分布族

如果您想要不同的估计并且对数据的分布有所了解,那么我建议您查看订单统计中位数。例如,这个 R 包将它们用于概率图相关系数PPCC您可以找到他们如何为某些发行版(例如正常发行版)执行此操作。您可以在 Vogel 1986 年的论文“The Probability Plot Correlation Coefficient Test for the Normal, Lognormal, and Gumbel Distributional Hypothese”中看到更多关于正态和对数正态分布的统计中位数的详细信息。

例如,从 Vogel 的论文 Eq.2 定义标准正态分布的 100 个观测样本的 min(x) 如下: 其中估计CDF 的中位数:

M1=Φ1(FY(min(y)))
F^Y(min(y))=1(1/2)1/100=0.0069

我们得到以下值:,您可以将位置和比例应用到该标准法线,以获得您对第 1 个百分位数的估计:M1=2.46μ^2.46σ^

下面是这与正态分布上的 min(x) 的比较:

在此处输入图像描述

顶部的图是第 1 个百分位数的 min(x) 估计量的分布,底部的图是我建议查看的图。我还粘贴了下面的代码。在代码中,我随机选择正态分布的均值和离散度,然后生成长度为 100 个观测值的样本。接下来,我找到 min(x),然后使用正态分布的真实参数将其缩放到标准正态。对于 M1 方法,我使用估计的均值和方差计算分位数,然后再次使用真实参数将其缩放回标准。这样我可以在一定程度上解释均值和标准差估计误差的影响。我还用垂直线显示了真实的百分位数。

您可以看到 M1 估计器比 min(x) 更严格。这是因为我们使用了我们对真实分布类型的了解,即正态分布。我们仍然不知道真实的参数,但即使知道分布族也极大地改进了我们的估计。

八度码

你可以在这里在线运行它:https ://octave-online.net/

N=100000
n=100

mus = randn(1,N);
sigmas = abs(randn(1,N));
r = randn(n,N).*repmat(sigmas,n,1)+repmat(mus,n,1);
muhats = mean(r);
sigmahats = std(r);

fhat = 1-(1/2)^(1/100)
M1 = norminv(fhat)
onepcthats = (M1*sigmahats + muhats - mus) ./ sigmas;

mins = min(r);
minonepcthats = (mins - mus) ./ sigmas;

onepct = norminv(0.01)

figure
subplot(2,1,1)
hist(minonepcthats,100)
title 'min(x)'
xlims = xlim;
ylims = ylim;
hold on
plot([onepct,onepct],ylims)

subplot(2,1,2)
hist(onepcthats,100)
title 'M1'
xlim(xlims)
hold on
plot([onepct,onepct],ylims)

未知分布

如果您不知道数据来自哪个分布,那么在金融风险应用程序中使用了另一种方法。有两个约翰逊分布SU和 SL。前者适用于无界情况,例如 Normal 和 Student t,后者适用于下界情况,例如对数正态。您可以将约翰逊分布拟合到您的数据,然后使用估计的参数估计所需的分位数。Tuenter (2001)提出了一种矩匹配拟合程序,一些人在实践中使用该程序。

它会比 min(x) 更好吗?我不确定,但有时它在我的实践中会产生更好的结果,例如当你不知道分布但知道它是下界时。