机器算法验证 - 连续变量的拟合优度 - 吾爱随笔录

连续变量的拟合优度

机器算法验证拟合优度 kolmogorov-smirnov 测试

2022-03-22 14:20:08

对于连续变量，有哪些拟合优度检验或指数？

例如，我正在研究 Kolmogorov-Smirnov 检验。

我没有得到的是如何首先获得经验 CDF？我的意思是，假设我用高斯误差进行回归分析。我有参数的最大似然估计。现在我还需要对经验 CDF 进行密度估计吗？他们不是一样的吗？我的可能性不是已经给了我很好的健康吗？为什么我需要 K-S？

2个回答

连续案例的拟合优度检验或指标有哪些？

大多数拟合优度测试都是针对连续情况的。从字面上看，有数百个。除了 Kolmogorov-Smirnov 检验（对于完全指定的分布，基于 ECDF 的最大差异），一些常用的包括 Anderson-Darling 检验（也完全指定和基于 ECDF；Cramer-von Mises 检验的方差加权版本) 和 Shapiro-Wilk（未指定参数，仅用于测试正态性）。

例如，我正在查看 Kolmogorov-Smirnov 测试。

好吧，但是为什么？也就是说，为什么要测试拟合优度？

我不明白的是，如何首先获得经验 CDF？

它只是 cdf 的示例版本。cdf 是，ECDF 是一样的，用“概率”（对于随机变量）替换为“比例”（数据）。也就是说，您计算小于或等于范围内每个值的数据比例（ECDF 仅在数据值处更改，但仍在它们之间定义 - 您实际上只需要在每个数据点识别它们的值并且在整个样本的左侧，因为它们从每个数据点到下一个数据点都是恒定的） $P(X\leq x)$ $x$

取一小组数字并尝试一下。

我们开始吧，三个数据值的样本：

13.2  15.8  17.5

现在，对于以下的比例是多少？ $x$ $\leq x$

x = 10, 13.2- , 13.2, 13.2+ , 15, 15.8, 17.5- , 19 $\varepsilon$ $\varepsilon$ $\varepsilon$

（其中是一个非常小的数字） $\varepsilon$

你能看到它是如何工作的吗？

（提示：前五个答案是 0、0、1/3、1/3、1/3，最后一个是 1；完整的 ECDF 绘制在我的答案末尾）

我的意思是，假设我用高斯误差进行回归分析。

是什么促使你使用这个例子？有什么东西（比如一本书，或者一个网站）让你认为你应该在这种情况下使用拟合优度测试吗？

我有参数的最大似然估计。现在我还需要对经验 CDF 进行密度估计？

什么是经验cdf？

请注意，KS 是一个测试，而不是一个估计。你在测试什么假设，为什么？

他们不是一样的吗？

不，它们完全不同，如下所述。

我的可能性不是已经给了我很好的健康吗？

回归的可能性告诉你这条线的拟合；在下面的例子中，红线与数据的接近程度。

在此处输入图像描述

您可以将数据替换为具有相同汇总统计但分布不同的另一组值，并且可能性相同。

请参阅Anscombe 四重奏，了解非常不同的数据如何具有相同的似然面的一个很好的例子。

相比之下，通过拟合优度检验，您正在检查某些分布的形状，例如具有一些均值和方差的正态分布，以拟合数据（KS 通过查看 ECDF 来测量与假设分布的差异，给出当您转换比较的两半时不会改变的测试 - 使其成为非参数）：

在此处输入图像描述

那么这与线性回归有什么关系呢？

有些人试图测试围绕线的正态性假设是否成立（例如第一个图中绿色条带中的分布），以检查关于误差分布的假设：

在此处输入图像描述

但是这项检查是针对所有 x 进行的，而不仅仅是一些特定的 x（我确实显示了特定附近的值以强调它是的条件分布- 或者等效地，错误的分布 - 这是相关的）。 $x$ $y$

- 不过，从您的描述中不清楚这是否是您要问的问题。

但是：

1）正式测试拟合优度作为对假设的检查不一定合适；

(i) 它回答了错误的问题（相关问题是“对我推断我们的非正态性程度有什么影响？”），以及

(ii) 仅在您知道几乎没有用处时才告诉您任何事情（拟合优度测试往往在中到大样本中显示显着性，在这些样本中通常无关紧要，在小样本中往往不显着最重要的样本），以及

（iii）根据结果改变你所做的通常比简单地假设你首先拒绝空值（你的回归推断没有所需的属性）更不合适。

2) 即使没有所有这些，KS 也是对完全指定分布的测试。在查看任何数据之前，您必须指定每个数据点的平均值和标准差。如果您正在估计平均值（例如通过拟合一条线）和标准偏差（例如通过残差的标准误差s），那么您根本不应该使用 KS 检验。

对于估计均值和方差的情况有一些检验（相当于 KS 检验称为 Lilliefors 检验），但对于正态性，标准是夏皮罗威尔克检验（尽管更简单的夏皮罗-弗朗西亚检验几乎同样强大，大多数统计软件都实现了完整的 Shapiro-Wilk 测试）。

为什么我需要KS？

嗯，基本上你不会。

对于您所描述的情况，几乎没有一种情况是一个好的选择。

我的建议是，要么使用一些不假设正态性的过程（例如，一些稳健的方法，或者可能是最小二乘但基于重采样的推断），或者如果你能够合理地假设正态性，请仔细检查带有诊断显示的假设的合理性（如 QQ 图；顺便说一下，Shapiro-Francia 检验有效地基于该）。 $R^2$

在大样本中，正态性对您的推断不太重要（对于除预测间隔之外的所有内容），因此您可以容忍与正态性的较大偏差（等方差和独立性假设更重要）。

在小样本中，您更依赖于测试和置信区间的假设，但您根本无法确定您的非正态性程度有多严重。您最好使用小样本来简单地工作，就好像您的数据是非正常的一样。（有许多很好的稳健选项，但您通常还应该考虑影响点的潜在影响，而不仅仅是潜在的 y 异常值。）

答案前面的小示例数据集的 ECDF：

13.2、15.8、17.5 的 ECDF

的概率分配给每个样本点。然后你像离散情况一样构造一个 CDF。 $\frac{1}{N}$

不知道你为什么在回归中使用 KS。如果您假设高斯误差并进行 MLE，那么您已经有效地将正态分布拟合到残差。您可以使用拟合值（简单方法）或更复杂的方法来估计残差的密度。

顺便说一句：可能性并不能给出拟合优度，它只是说明如果样本是从您的拟合分布中抽取的，它的可能性有多大。它没有说明实际分布的可能性有多大。

KS 测试旨在确定给定的特定分布是否可能生成结果。给定分布，它不同于数据的可能性。

这也有一个问题：如果您首先通过 MLE 拟合参数，然后在该分布上运行 KS 测试，则需要针对您使用样本生成参数的事实进行调整。

其它你可能感兴趣的问题

上一篇关于学习数据的硬度下一篇为什么标准误差有时用于绘图中的“误差带”？