我需要一些关于咨询项目的聚类(无监督分类)方法的建议。我正在寻找一种希望具有以下属性的方法:
我的研究对象具有三个属性。一个由(非欧几里得)距离矩阵表示,另外两个以欧几里得空间中的向量形式表示。距离矩阵来自序列,可以是相异百分比或序列距离的其他度量的形式。该算法应该能够将欧几里得空间中的向量和非欧几里得距离作为输入。例如,K-medoids 可以使用距离矩阵,但 K-means 不能。
我希望算法自动选择三个属性的聚类数量和权重(具有先验知识和约束)。
我有先前确定的“集群中心”的信息。我想将其合并为先前或初始值。
作为一名统计学家,我希望该方法具有明确的似然函数或损失函数。
我能想到的最接近的事情是在贝叶斯框架中拟合混合模型,使用反向跳转 MCMC 来确定集群的数量。R^d 中的向量可以很容易地表述为正态似然,但我不清楚如何处理距离矩阵。我可以将正常可能性的平均值限制为让 MCMC 运行的每个观察值,但这没有明确的数学/统计意义。
有没有人有类似问题的经验?对参考的建议将不胜感激!