核密度估计相对于参数估计的优势

机器算法验证 估计 内核平滑 非参数
2022-03-22 11:30:06

您是否有任何特殊原因会选择核密度估计而不是参数估计?我正在学习如何将分布拟合到我的数据中。这个问题来找我。

我的数据量相对较大,有 7500 个数据点。汽车索赔。我的目标是使其适合分布(非参数或参数)。然后用它来模拟汽车索赔数据,计算VaR或TVaR。

我用log对数据进行转换,使其相对正常。我拟合了许多分布,包括正态、对数正态、伽马、t 等......我使用 AIC 和对数似然来确定最佳拟合。但是所有这些拟合都没有通过 KS 测试(p 值极小,具有 e-10)。

这就是为什么我问在什么情况下我应该切换到 KDE。

2个回答

答案是“为什么要将数据建模为分布中的样本?” 如果您想了解数据背后的现象,例如在改进科学理论或测试科学假设时,使用非参数核估计器并不能告诉您比数据本身更多的信息。虽然参数化模型可以更清楚地说明 (a) 数据和模型是否一致,以及 (b) 参数的可能值是什么。因此,取决于您的目标,您应该更喜欢哪种方法。

可能有。核密度估计是一种非参数方法。参数估计需要基于几个参数假设的参数分布族。如果您有基础相信该模型是近似正确的,那么进行参数推理是有利的。另一方面,数据可能不适用于家庭的任何成员。在这种情况下,最好使用核密度估计,因为它将构造一个合理地拟合数据的密度。它不需要关于参数族的任何假设。

为清楚起见,该描述可能略微过于简单化。让我举一个具体的例子来说明这一点。假设参数族是由两个未知参数均值和方差定义的正态分布。该族中的每个分布都是对称的,呈钟形,均值等于中位数和众数。现在您的样本似乎不是对称的,并且样本均值与样本中位数有很大不同。然后你有证据认为你的假设是错误的。因此,您要么需要找到一个转换,将数据转换为适合一个好的参数族(可能是正常的),要么找到一个替代的参数族。如果这些替代参数方法似乎不起作用,则内核密度方法是一种可行的替代方法。有几个问题 (1) 内核的形状,(2) 确定平滑度的内核带宽,以及 (3) 样本量可能比参数族所需的样本量更大。文献中已经表明问题 1 实际上并不重要。问题 2 很重要。问题 3 取决于您有能力收集多大的样本。尽管这些问题与分布具有密度的隐含假设一起存在,但这些假设可能比限制性参数假设更容易接受。问题 3 取决于您有能力收集多大的样本。尽管这些问题与分布具有密度的隐含假设一起存在,但这些假设可能比限制性参数假设更容易接受。问题 3 取决于您有能力收集多大的样本。尽管这些问题与分布具有密度的隐含假设一起存在,但这些假设可能比限制性参数假设更容易接受。