机器算法验证 - 如何计算缺少数据的混合模型的可能性？ - 吾爱随笔录

玩具说明：我有一套不同颜色的不同汽车。可以有绿色、蓝色、红色等汽车。我有一组类，即：“该组包含蓝色、红色和粉红色的汽车”或“该组仅包含绿色汽车”。让我们假设集合中汽车的颜色可以建模为具有已知均值/方差的法线的混合。

我还可以看看坐在车里的人。例如，绿色汽车中可能有 10 个人穿绿色。它增加了这辆车是绿色的证据。或者我可以有一辆颜色介于蓝色和紫色之间的汽车，车内有 3 个穿着紫色的人。我会说这辆车是紫色的。而且我可以拥有一辆没有任何人的汽车。

如果我只处理汽车的颜色，我会使用 EM 算法。但是如何考虑可能坐在车内的人呢？不同车内的人数不同，因此每个点的可能性会有所不同（我的意思是我们不能再乘以可能性，有些可能性会因为很多人在车里而变得非常小）。

考虑到其他数据点，如何在颜色上拟合高斯混合？每个单独点的分类没有问题：人数是恒定的，因此不同型号之间的可能性将是“可比的”，即“这辆车是绿色的”与“这辆车是蓝色的”。如何计算所有汽车的联合似然？

换句话说，我有一个有序的值向量：

$(x_{1}, x_{2}, ..., x_{n})$ 和每个点都是从具有固定均值和的高斯生成的。我们知道可能的方法集（因此我们可以使用受约束的 EM 算法）。 $\sigma$

s向量模型示例：均值 (0, 1.0, 2.0, ..., 5.0) 和的高斯分量的混合。另一个模型可以是具有均值 (2.0, 3.0, 4.0) 和相同的组件的混合。我的目标是确定哪个模型是正确的。 $x$ $\sigma=0.05$ $\sigma$

每个具有不同均值的分量可以产生额外的数据：。因此，如果点属于均值为 2.0 的高斯混合分量，它可以产生 0、1 个或多个附加点“说”对属于混合分量均值 2.0（可能性大于）。的附加点数不同（可能是）。因此，如果我们尝试计算 $x_i \leftrightarrow \{y_1, ...\}$ $x_i$ $x_i \leftrightarrow \{y_1, ...\}$ $L(x,y|\mu=2.0)$ $L(x,y|\mu \neq 2.0)$ $x_i$ $x_i \leftrightarrow \{\emptyset\}$ $x_i \leftrightarrow \{y_1, ...\}$ 只需乘以概率我们将得到不同点的不同阶值！ $p(x_i|\mu=2.0)\cdot p(y_1|\mu=2.0)\cdot \ldots \cdot p(y_m|\mu=2.0)$

UPD：由于混合建模中任何点的成员权重都归一化为，我可以使用附加数据来估计至少混合比例更准确吗？似乎在没有额外数据的情况下它们将保持不变，而将额外数据考虑在内只会更好。现在我没有看到如何在最终似然计算中考虑额外数据的方法，但如果我没记错的话，可以调整成员权重。 $\sum \pi_k = 1$

UPD1：迄今为止最好的想法：使用引导程序从汽车/人中创建一个等长的样本。所以对于所有。如果的集合为空，我们可以重复次。看起来超级糟糕，但是... $x_i \leftrightarrow \{y_1, ...y_m\}$ $i$ $y$ $x_i$ $m$