我是新手,所以如果我的比较逻辑不正确cosine similarity,请告诉我k-means
我得到了一套,4 clusters现在k-means我对Cluster No. 1. 对于这个集群,我把average of all values for each column它放在一边。
现在,我有一个测试样本,我运行它k-means prediction并得到输出1,这意味着它属于哪个对我有好处,但我的用例是Cluster No. 1计算即使该样本不属于Cluster 1它落入那个Cluster No. 1
因此,为了解决这个问题,我想cosine similarity在我的测试样本和我拿的样本之间做一个average of all values for each column。现在,在这种情况下,我得到的相似性只是5%
我不确定,对于我的用例i.e. (Getting the probability/closeness of a sample belonging to a specific cluster),哪个对我来说是更好的解释?
我知道我可以将集群标签用作y变量并制作multi-class classification model,但我想尽可能地保留它un-supervised。请指导