数据挖掘 - 帮助减少一组特征 - 吾爱随笔录

我正在尝试进行一些聚类。我有一个非常稀疏的数据集——大多数特征只出现在一个向量中。

以下是我们的功能列表： https ://gist.github.com/scrooloose/5963725dc88e5d15d74dcae522bebf82

我正在寻找有关我们如何将其中一些孤立的功能合并在一起的任何建议/提示/指针。这有望使我的聚类实验更加成功。

例如，通过手动检查数据，我可以看到这组特征可以全部合并为“健康”或“心理健康”+“一般健康”或类似的特征。

618: Mental Health Research
619: Mental disorder
1616: mental health
1617: mental illness
1618: men’s health
410: Genital wart
402: Genomic Medicine
476: Hygiene

另一个例子是这组功能可以合并到“教育”之类的东西中：

536: Kiir Primary School
591: Makonzi Boarding School
609: Mathematics
670: New York University
300: Education
301: Educational psychology
349: Female education

任何想法都会非常受欢迎，谢谢:)

旁注：这些功能是从炼金术（http://www.alchemyapi.com/）返回的关键字。源于对一组 URL 的关键字搜索。目的是通过这些关键字对 URL（以及它们所代表的公司）进行聚类。