我有大量的数据记录,如下所示:
"text", "category"
我从文本(2-、3-和 4-gram)中提取 n-gram 并存储每个类别的每个 n-gram 的计数,如下所示:
"ngram1", "category1", 1000
"ngram1", "category2", 20
"ngram1", "category3", 15
"ngram2", "category1", 25
"ngram2", "category2", 550
"ngram2", "category3", 600
是否有聚类或分类算法可以帮助根据类别内相同 n-gram 的计数在类别内查找组?
在上面的示例中,该算法应该能够显示“category2”和“category3”是同一组的一部分。