帮助减少一组特征

数据挖掘 聚类 数据集
2022-02-20 13:47:57

我正在尝试进行一些聚类。我有一个非常稀疏的数据集——大多数特征只出现在一个向量中。

以下是我们的功能列表: https ://gist.github.com/scrooloose/5963725dc88e5d15d74dcae522bebf82

我正在寻找有关我们如何将其中一些孤立的功能合并在一起的任何建议/提示/指针。这有望使我的聚类实验更加成功。

例如,通过手动检查数据,我可以看到这组特征可以全部合并为“健康”或“心理健康”+“一般健康”或类似的特征。

618: Mental Health Research
619: Mental disorder
1616: mental health
1617: mental illness
1618: men’s health
410: Genital wart
402: Genomic Medicine
476: Hygiene

另一个例子是这组功能可以合并到“教育”之类的东西中:

536: Kiir Primary School
591: Makonzi Boarding School
609: Mathematics
670: New York University
300: Education
301: Educational psychology
349: Female education

任何想法都会非常受欢迎,谢谢:)

旁注:这些功能是从炼金术(http://www.alchemyapi.com/)返回的关键字。源于对一组 URL 的关键字搜索。目的是通过这些关键字对 URL(以及它们所代表的公司)进行聚类。

1个回答

如果我理解正确,您想通过使用提取为特征的关键字来聚类 url。由于这些特征非常稀疏,您可以尝试使用降维方法来帮助您。

一种方法是将每个 URL 关键字视为一个文档。然后,您可以使用文档嵌入算法(例如LDAdoc2vec)来学习更密集的文档表示。

如果你想对关键词进行分组,你可以尝试使用词嵌入方法来学习词的表示。然后,您可以使用它来测量单词和单词组之间的相似性。一个例子是众所周知的word2vec最近的方法(如FastText)可以替代考虑形态学的方法。