机器算法验证 - F检验确定是否有超过两组数据不同 - 吾爱随笔录

这是我的问题的背景：

我知道您可以将相同的模型分别拟合到两个不同的数据集，然后将模型拟合到汇集在一起的数据集，以此来辨别数据集是否足够不同以保证单独建模。这是使用 F 检验完成的，其中：

SSsep = SSa + SSb，dfsep = dfa + dfb

和

F = (SSpool - SS ssep)/(dfpool-dfsep)/ (SSsep/dfsep)

我的问题有两个。

将这种方法扩展到两个以上的数据集是否合适？例如，有什么理由不使用这种方法来比较三个数据集？那样...

SSsep = SSa + SSb + SSc，dfsep = dfa + dfb + dfc

修补模拟数据似乎可以让您检测三个数据集中的任何两个之间的差异，尽管它不允许您分辨哪些数据集不同。
如果上述方法是有效的，那么（1）同时对所有三个数据集进行比较（ABC 与 A、B、C）和仅在数据集之间进行成对比较（如果存在差异）之间是否存在差异？检测到（AB vs A & B...BC vs B & C...AC vs A & C）和（2）刚开始成对比较？如果是这样，这两种方法有什么区别？我不确定如何表达它，但我感觉到这两种方法之间存在差异。

非常感谢，

安吉拉

只是为了形象化这个问题，这里有一个假设的例子，其中两个数据集（蓝色和灰色）足够相似，可以用同一模型建模，而其中一个数据集（绿色）可能应该单独建模。黑线是适合合并数据的模型。

在此处输入图像描述