我正在做一个混合模型。我已经建立了一种使用 EM 算法的新方法。我有来自混合模型的模拟数据。然后,我将我的新方法应用于数据。结果非常令人满意。然后,出于比较的原因,非混合模型显示不准确的结果,被接受。我已将此作为非混合模型(针对特定区域)无法处理混合依赖的证据。有人告诉我这并不奇怪,因为数据是混合数据。我已经知道了,但要让读者意识到混合模型的重要性以及在这些情况下非混合是如何失败的。然后,他让我将非混合模型和混合模型应用于真实数据并查看结果。我使用的数据是一般的(我只是想在上面测试模型并且没有关于它的实验信息)。我读到,对于真实数据,我们应该了解它或有很强的背景,否则比较是不公平的。例如,假设我在一个我真的不太了解的数据上拟合了一个模型。进一步假设第一个模型(模型 A(非混合)将不同的分布(例如任意高斯模型)拟合到数据中,而混合模型(模型 B)仅拟合特定的混合高斯模型。那么,模型 A 可能优于模型 B。但是,如果我们对数据有很好的了解,然后拟合最合适的混合模型,那么模型 B 比模型 A 更适合数据的可能性很高。
我的问题是为什么我们不相信模拟研究来说明我们的问题(如果我们对特定数据不感兴趣)或有没有实验知识的数据?换句话说,正如我需要说明一点,那为什么模拟数据还不够呢?
新编辑
换句话说,
我的想法是,在我没有足够信息或手头数据知识的情况下,将模型 A 与模型 B 进行比较是否公平?这可能使模型 A 比模型 B 更适合数据(由于对数据的了解不足)。我认为,对于这种情况,只有当我们对数据有充分的了解并因此在比较之前将最合适的模型拟合到数据时,才能进行公平的比较。也就是说,要在真实数据上比较两个模型,我应该对数据有足够的了解。否则,如果我将错误的模型(即使是混合模型)拟合到真实的混合数据中,那么,非混合可能会因为我拟合错误的混合模型而比混合模型更好地拟合数据?那是对的吗?因此,非混合模型甚至显示出比混合模型更好的模型拟合,但仍然给我错误的拟合(因为数据是混合的)。因此,