问题出在此链接text vs cluster提供了文本集合的初始四个集群分区 {c1, c2, c3, c4} 。假设ground-truth分区由下式给出
cacm texts belong to cluster1
cisi texts belong to cluster2
cran texts belong to cluster3
med texts belong to cluster4
为提供的分区构建混淆矩阵 (CM)。即构建一个 4X4 矩阵,其第 i 行显示 ci 元素在 cluster1、cluster2、cluster3 和 cluster4 之间的分布。例如,第一行计算如下:CM11=|c1∩cluster1|、CM12=|c1∩cluster2|、CM13=|c1∩cluster3| 和 CM14=|c1∩cluster4| 我理解这个问题只是不知道如何编码。我是这样想的
//open text file
fileID = fopen('list.txt');
C = textscan(fileID,'%s %s');
fclose(fileID);
它的作用是将名称排序为是文件名,是集群名称。顺便说一句,我正在使用 Matlab