玩具说明:我有一套不同颜色的不同汽车。可以有绿色、蓝色、红色等汽车。我有一组类,即:“该组包含蓝色、红色和粉红色的汽车”或“该组仅包含绿色汽车”。让我们假设集合中汽车的颜色可以建模为具有已知均值/方差的法线的混合。
我还可以看看坐在车里的人。例如,绿色汽车中可能有 10 个人穿绿色。它增加了这辆车是绿色的证据。或者我可以有一辆颜色介于蓝色和紫色之间的汽车,车内有 3 个穿着紫色的人。我会说这辆车是紫色的。而且我可以拥有一辆没有任何人的汽车。
如果我只处理汽车的颜色,我会使用 EM 算法。但是如何考虑可能坐在车内的人呢?不同车内的人数不同,因此每个点的可能性会有所不同(我的意思是我们不能再乘以可能性,有些可能性会因为很多人在车里而变得非常小)。
考虑到其他数据点,如何在颜色上拟合高斯混合?每个单独点的分类没有问题:人数是恒定的,因此不同型号之间的可能性将是“可比的”,即“这辆车是绿色的”与“这辆车是蓝色的”。如何计算所有汽车的联合似然?
换句话说,我有一个有序的值向量:
和每个点都是从具有固定均值和的高斯生成的。我们知道可能的方法集(因此我们可以使用受约束的 EM 算法)。
s向量模型示例:均值 (0, 1.0, 2.0, ..., 5.0) 和的高斯分量的混合。另一个模型可以是具有均值 (2.0, 3.0, 4.0) 和相同的组件的混合。我的目标是确定哪个模型是正确的。
每个具有不同均值的分量可以产生额外的数据:。因此,如果点属于均值为 2.0 的高斯混合分量,它可以产生 0、1 个或多个附加点“说”对属于混合分量均值 2.0(可能性大于)。的附加点数不同(可能是)。因此,如果我们尝试计算只需乘以概率我们将得到不同点的不同阶值!
UPD:由于混合建模中任何点的成员权重都归一化为,我可以使用附加数据来估计至少混合比例更准确吗?似乎在没有额外数据的情况下它们将保持不变,而将额外数据考虑在内只会更好。现在我没有看到如何在最终似然计算中考虑额外数据的方法,但如果我没记错的话,可以调整成员权重。
UPD1:迄今为止最好的想法:使用引导程序从汽车/人中创建一个等长的样本。所以对于所有。如果的集合为空,我们可以重复次。看起来超级糟糕,但是...