为什么我们不接受我们的模拟研究结果作为一种方法局限性的证据

机器算法验证 模拟 配件 混合分布
2022-04-02 04:33:54

我正在做一个混合模型。我已经建立了一种使用 EM 算法的新方法。我有来自混合模型的模拟数据。然后,我将我的新方法应用于数据。结果非常令人满意。然后,出于比较的原因,非混合模型显示不准确的结果,被接受。我已将此作为非混合模型(针对特定区域)无法处理混合依赖的证据。有人告诉我这并不奇怪,因为数据是混合数据。我已经知道了,但要让读者意识到混合模型的重要性以及在这些情况下非混合是如何失败的。然后,他让我将非混合模型和混合模型应用于真实数据并查看结果。我使用的数据是一般的(我只是想在上面测试模型并且没有关于它的实验信息)。我读到,对于真实数据,我们应该了解它或有很强的背景,否则比较是不公平的。例如,假设我在一个我真的不太了解的数据上拟合了一个模型。进一步假设第一个模型(模型 A(非混合)将不同的分布(例如任意高斯模型)拟合到数据中,而混合模型(模型 B)仅拟合特定的混合高斯模型。那么,模型 A 可能优于模型 B。但是,如果我们对数据有很好的了解,然后拟合最合适的混合模型,那么模型 B 比模型 A 更适合数据的可能性很高。

我的问题是为什么我们不相信模拟研究来说明我们的问题(如果我们对特定数据不感兴趣)或有没有实验知识的数据?换句话说,正如我需要说明一点,那为什么模拟数据还不够呢?

新编辑

换句话说,

我的想法是,在我没有足够信息或手头数据知识的情况下,将模型 A 与模型 B 进行比较是否公平?这可能使模型 A 比模型 B 更适合数据(由于对数据的了解不足)。我认为,对于这种情况,只有当我们对数据有充分的了解并因此在比较之前将最合适的模型拟合到数据时,才能进行公平的比较。也就是说,要在真实数据上比较两个模型,我应该对数据有足够的了解。否则,如果我将错误的模型(即使是混合模型)拟合到真实的混合数据中,那么,非混合可能会因为我拟合错误的混合模型而比混合模型更好地拟合数据?那是对的吗?因此,非混合模型甚至显示出比混合模型更好的模型拟合,但仍然给我错误的拟合(因为数据是混合的)。因此,

1个回答

模拟研究表明,当数据生成模型和分析模型相同时非常好。人们真正想看到的更笼统:

  1. 当数据生成机制具有现实生活的所有复杂性时,模型表现良好。这里有很多判断,但是数据生成机制的某些其他方面可能会比其他方面产生更大的影响。模拟实际上非常适合探索这一点,但往往做得很差。
  2. 不要只是打倒一个稻草人,而是所有合理/常用的方法。例如,协变量的调整可能会使忽略随机效应变得不那么重要。
  3. 性能上的差异需要足够惊人,才能在实践中真正发挥作用。一个很好的例子也可以帮助说明人们可以得出截然不同的结论。