我可以从样本均值和中位数中获取对数正态分布的参数吗?

机器算法验证 估计 意思是 对数正态分布 中位数 参数化
2022-03-11 14:39:50

我有从对数正态分布中抽取的样本的平均值和中值。请注意,这不是变量对数的均值和中值,尽管我当然可以计算均值和中值的对数。从这些信息中是否存在 μ 和 σ 的封闭形式解决方案?如果只有一个数字解决方案,你能告诉我如何找到它,最好是用 R 吗?

我注意到这个问题已经回答了从样本均值和样本方差推导 μ 和 σ,这里: 如何从样本均值和样本方差估计对数正态分布的参数 但是,我没有样本方差,只有均值和中位数。

如果没有封闭形式或直接的数值解决方案,我想知道使用样本均值和中值的对数,或者它们的某种变换,是否可以为大样本(数亿)。

1个回答

这取决于您所说的“获取”是什么意思。通常,您无法从样本信息中获取总体数量。但是,您通常可以获得估算值,尽管在这种情况下估算值可能不是很好。

如果你有它们,你可以很容易地从总体平均值和中位数计算参数;如果m~=exp(μ)是人口中位数和m=exp(μ+12σ2)是人口平均数吗μ=log(m~)σ2=2log(mm~)=2(log(m)log(m~)).

您可以类似地尝试在某种人口数量估计器中使用样本均值和样本中位数。

如果您唯一拥有的是对数正态的样本均值和中位数(x¯x~分别)那么你至少可以使用用样本替换人口数量的明显策略*,结合矩量法和分位数法......μ^=log(x~)σ^2=2log(x¯x~)=2(log(x¯)log(x~)).

我相信这些估计器将是一致的。但是,在小样本中,这些肯定是有偏差的,并且可能不是很有效,但是如果没有大量分析,您可能没有很多选择。

当然,实际上,您并不真正知道您的数据是从对数正态分布中提取的——这几乎是一种猜测。然而,在实践中,这可能是一个非常有用的假设。

理想情况下,可以根据对数正态计算样本均值和中位数的联合分布,然后尝试最大化该二元分布参数的似然性;这应该尽可能好,但这更像是一个体面的研究问题(如果以前没有做过,那么值得一篇论文)而不是几段答案的问题。

可以对样本均值和中位数联合分布的性质进行一些模拟研究。例如,考虑到均值与中值之比的分布应该是无标度的——一个函数σ 只要。即使我们不能用代数计算它,我们也可以看看这个比率(例如)是如何表现的σ变化。然后,人们可能会选择σ大约最大化获得您观察到的比率的机会(μ可以通过多种方式进行估计,但显而易见的方式——如前所述的中位数的对数——并不可怕)。


* 警告:样本中位数完全有可能超过样本均值。在这种情况下,上面建议的简单估计器没有帮助,因为它依赖于高于中位数的平均值(它会对正参数给出负估计)。