我有对象位于维空间中,但是我不知道它们的确切坐标。对于每个对象和每个维度,我都有一组嘈杂的坐标测量值。
我想将这些数据聚集在
例如,使用和,我可以访问以下数据:
- 对象,暗淡 1:0.8 0.7 0.6
- 对象,暗淡 2:1.0 1.0 1.0 0.9
- 对象,暗淡 1:0.4 0.3
- 对象,暗淡 2:0.2 0.1
- 对象,暗淡 1:0.9 0.6
- 对象 , 暗淡 2:
在我目前的方法中,我为每个具有数据的(对象,维度)对取平均值,并为缺失数据输入维度的平均值。
所以我会得到
- [0.7 0.975
- [0.35 0.15]
- [0.75 0.6] (其中 )
然后我使用 scikit-learn python 库运行均值偏移算法并获得集群。
我对这种方法并不完全满意,主要有两个原因(也许它们是相同的):
- 具有单个观察的(对象,维度)对被视为与具有多个观察的一对一样可靠
- 在如何处理具有零观测值的对和具有一些观测值的对之间存在不连续性。在第二种情况下,其他对象的值根本不影响属性。
我的问题是:解决这个问题的更有原则的方法是什么?如果我需要使用另一种算法,是否有可以实现它的开源体面质量库?
我目前使用和进行测试,但我的目标是在我的目标应用程序中使用和(但如果不切实际,可能会使用更小的