数据挖掘 - 如何获得属于特定集群的样本的概率/接近度？ - 吾爱随笔录

我是新手，所以如果我的比较逻辑不正确cosine similarity，请告诉我k-means

我得到了一套，4 clusters现在k-means我对Cluster No. 1. 对于这个集群，我把average of all values for each column它放在一边。

现在，我有一个测试样本，我运行它k-means prediction并得到输出1，这意味着它属于哪个对我有好处，但我的用例是Cluster No. 1计算即使该样本不属于Cluster 1它落入那个Cluster No. 1

因此，为了解决这个问题，我想cosine similarity在我的测试样本和我拿的样本之间做一个average of all values for each column。现在，在这种情况下，我得到的相似性只是5%

我不确定，对于我的用例i.e. (Getting the probability/closeness of a sample belonging to a specific cluster)，哪个对我来说是更好的解释？

我知道我可以将集群标签用作y变量并制作multi-class classification model，但我想尽可能地保留它un-supervised。请指导