我想知道混合模型和统计中的混合模型有什么区别?使用任何实际示例进行解释将不胜感激。
混合模型与混合模型
除了听起来相似的名字外,它们是完全不同的模型。
有限混合模型是根据混合分布描述您的数据的模型,
最终分布在哪里是一种混合物组件分布通过自己的参数进行参数化和混合比例这样. 它们可用于许多不同的用途,如聚类,但也有更复杂的用途,如聚类回归。也有无限的混合,没有固定的,但这是一个更长的故事。
混合效应模型和广义混合效应模型类似于线性回归和广义线性模型,但由于回归和 GLM 仅包括固定效应,LMM 和 GLMM 也包括随机效应。有关更多详细信息,请参阅 固定效应、随机效应和混合效应模型有什么区别?
Tim 给出了一个很好的答案,描述了两个模型类之间的概念差异。为了完整起见,由于您要求提供一个实际示例,因此这里是一些用于从混合模型生成数据的 R 代码。更具体地说,这是一个具有两个分量的高斯混合模型;为了适应 Tim 的符号,你可以看到这种关系,我们有:
在哪里和. 那是,分布为两个正态(高斯)分布的有限混合,每个分布都有自己的均值和方差;在哪里是控制混合程度的参数。现在,让我们想象一下这一切的真正含义。让我们首先将其中一些参数设置为固定值。
让我们这么说,,,, 和. 这给了我们:
所以你可以看到这只是两个正态分布的加权和。让我们看看当我们在 R 中生成这些数据时会发生什么:
# Set our sample size
N <- 1000
# Set our values of pi
pi <- sample(1:2,prob=c(0.5,0.5),size=N,replace=TRUE)
# Set the parameters of our two normal distributions
mus <- c(1,6)
sds <- sqrt(c(1,2))
# Note that above I parameterized our normals in terms of their
# variance, but the rnorm function below requires standard
# deviations, thus why I'm taking the square root.
# Generate our data
mixture_model <- rnorm(n=N,mean=mus[pi],sd=sds[pi])
# Histogram
hist(mixture_model)
您可以看到我们创建了一个双峰分布,每个模式对应于我们的一个分量均值(1 和 6)。我将把它作为练习留给你,看看你改变混合比例时会发生什么() 或每个组件的参数,以及它如何影响混合物分布。也可以定义具有两个以上成分的混合物(事实上,甚至有关于“无限”混合物的文献,其中成分的数量本身就是一个随机变量!)并且分布不同于正常分布(实际上,一般来说,甚至混合物的每个成分都不需要相同的分布,我什至见过嵌套的混合物模型,其中混合物的一个成分本身就是另一个混合物模型!)。
(作为补充,术语“混合模型”偶尔被用来描述更恰当地称为“复合概率分布”的不同类别的模型。例如,如果我们有一个泊松分布,其速率参数被假设为是遵循 Gamma 分布的随机变量,由此产生的“泊松-Gamma 混合”(有时也称为)实际上是一个复合概率分布,可以证明它遵循负二项分布。这里与贝叶斯模型中的先验/后验分布,以及我上面描述的有限混合模型的概念,但这超出了这个问题的范围。)
现在,混合模型(即混合效应模型)呢?好吧,正如 Tim 所暗示的那样,混合模型实际上是回归模型,我们对回归参数的性质(即固定与随机效应)做出特定假设。通常,混合模型是包含固定效应和随机效应的任何回归模型,其中我们假设随机效应遵循某种分布。请参阅 Tim 的答案中的链接,以更深入地讨论这实际上意味着什么。
这些方法之间的主要概念区别在于,混合模型实际上只是一种指定随机变量分布(作为其他分布的混合)的方法,而混合模型是一种指定一组协变量之间关系的方法和一个结果变量。实际上,有可能有一个混合(-效应)混合模型,其中我们有结果变量遵循分布的混合,我们尝试将一组协变量与该混合相关联。