我注意到在统计/机器学习方法中,分布通常由高斯近似,然后使用高斯进行采样。他们首先计算分布的前两个矩,并使用它们来估计和。然后他们可以从那个高斯采样。
在我看来,我计算的时刻越多,我应该能够更好地近似我希望采样的分布。
如果我计算 3 个时刻会怎样……我如何使用这些时刻从分布中采样?这可以扩展到 N 时刻吗?
我注意到在统计/机器学习方法中,分布通常由高斯近似,然后使用高斯进行采样。他们首先计算分布的前两个矩,并使用它们来估计和。然后他们可以从那个高斯采样。
在我看来,我计算的时刻越多,我应该能够更好地近似我希望采样的分布。
如果我计算 3 个时刻会怎样……我如何使用这些时刻从分布中采样?这可以扩展到 N 时刻吗?
三矩不决定分布形式;如果您选择具有与前三个总体矩相关的三个参数的分布系列,则可以进行矩匹配(“矩方法”)来估计三个参数,然后从这样的分布中生成值。有很多这样的分布。
有时即使拥有所有时刻也不足以确定分布。如果矩生成函数存在(在 0 附近),那么它唯一地标识一个分布(原则上你可以做一个拉普拉斯逆变换来获得它)。
[如果某些矩不是有限的,这意味着 mgf 不存在,但也有所有矩都是有限的但 mgf 仍然不存在于 0 的邻域中的情况。]
鉴于有分布的选择,人们可能会考虑在前三个矩上有约束的最大熵解,但在实线上没有分布可以达到它(因为指数中的结果三次将是无界的)。
该过程如何适用于特定的分发选择
)来简化获得匹配三个矩的分布的过程。
我们可以这样做,因为已经选择了具有相关偏度的分布,然后我们可以通过缩放和移动来取消所需的均值和方差。
让我们考虑一个例子。昨天我创建了一个大型数据集(仍然恰好在我的 R 会话中),我没有尝试计算其分布的函数形式(它是 n 处柯西样本方差的对数的一大组值=10)。我们的前三个原始矩分别为 1.519、3.597 和 11.479,或相应的平均值为 1.518,标准差*为 1.136,偏度为 1.429(因此这些是来自大样本的样本值)。
形式上,矩量法会尝试匹配原始矩,但如果我们从偏度开始计算会更简单(将求解三个未知数中的三个方程变为一次求解一个参数,这是一项简单得多的任务)。
* 我将摒弃在方差上使用 n 分母(对应于矩量法)和 n-1 分母之间的区别,并简单地使用样本计算。
这种偏度(~1.43)表明我们在寻找一个右偏的分布。例如,我可以选择具有相同矩的移位对数正态分布(三参数对数正态、形状、比例和 location-shift让我们从匹配偏度开始。两个参数对数正态的总体偏度为:
因此,让我们首先将其等同于所需的样本值,以获得对,的估计,比如说。
注意是其中。这会产生一个简单的三次方程。使用该等式中的样本偏度产生或。(三次方只有一个实根,因此在根之间选择没有问题;也没有在上选择错误符号的风险——如果我们需要负偏度,我们可以从左到右翻转分布)
然后我们可以依次通过匹配方差(或标准差)来求解 ,然后通过匹配均值来求解位置参数。
但是我们可以很容易地选择一个移位的伽马分布或一个移位的威布尔分布(或一个移位的 F 或任何数量的其他选择)并运行基本相同的过程。他们每个人都会有所不同。
[对于我正在处理的样本,偏移伽玛可能比偏移对数正态更好的选择,因为值的对数分布是左偏斜的,并且它们的立方根的分布非常接近对称;这些与您将在(未偏移的)伽马密度下看到的一致,但是使用任何偏移的对数正态都无法实现对数的左偏密度。]
甚至可以在 Pearson 图中获取偏度-峰度图并在所需偏度处画一条线,从而获得两点分布、β 分布序列、伽马分布、β 素数分布序列、逆-伽马分布和一系列 Pearson IV 型分布都具有相同的偏度。
我们可以在下面的偏度峰度图(皮尔逊图)中看到这一点(注意和是峰度),其中标记了各种皮尔逊分布的区域。
绿色水平线代表,我们看到它通过每个提到的分布族,每个点对应于不同的人口峰度。(虚线表示对数正态分布,它不是皮尔逊家族分布;它与绿线的交点标志着我们确定的特定对数正态分布。请注意,虚线曲线纯粹是的函数。)
更多精彩瞬间
矩不能很好地确定分布,所以即使你指定了很多矩,仍然会有很多不同的分布(特别是与它们的极端尾行为有关)会匹配它们。
您当然可以选择一些具有至少四个参数的分布族,并尝试匹配三个以上的矩;例如,上面的 Pearson 分布允许我们匹配前四个矩,并且还有其他分布选择可以允许类似程度的灵活性。
可以采用其他策略来选择可以匹配分布特征的分布——混合分布、使用样条对数密度建模等等。
然而,通常情况下,如果人们回到试图找到分布的最初目的,通常会发现有比这里概述的策略更好的方法。
所以,答案通常是否定的,你不能这样做,但有时你可以。
你不能这样做的原因通常有两个。
首先,如果您有 N 个观测值,那么您最多可以计算 N 个矩。其他时刻呢?您不能简单地将它们设置为零。
其次,更高的矩计算变得越来越不精确,因为您必须将数字提高到更高的幂。考虑第 100 个非中心时刻,您通常无法以任何精度计算它:
现在,有时您可以从时刻获得分布。当你对某种分布做出假设时。例如,您声明这是正常的。在这种情况下,您只需要两个矩,通常可以以相当的精度计算。请注意,正态分布确实具有更高的矩,例如峰度,但我们不需要它们。如果你要计算正态分布的所有矩(不假设它是正态的),然后试图恢复特征函数以从分布中采样,它就行不通。然而,当你忘记更高的时刻并坚持前两个时,它确实有效。