我正在尝试对一大组文档进行聚类,其中我有一个 DOC2VEC 表示。但我想用更多特征对它们进行聚类,从而将向量 ( numpy.asarray(doc2vec_for_document)
) 和单个值作为特征。
这可能吗?我想尝试在 Python 中使用 SKLearn 模块的 K-means 和 DBSCAN 进行聚类。
我的数据集看起来像这样:
| 文件 | DOC2VEC | extra_ft1 | extra_ft2 | ...
另外,如果我有多个向量而不是 1 个向量和许多值怎么办?