高维二进制稀疏数据的聚类算法

数据挖掘 机器学习 聚类 无监督学习
2021-09-21 16:38:08

我有一个包含 10,000 个基因的数据集,如下所示

person gene1 gene2 ... gene10000  ethnic
  1       0      1         1       asian
  2       1      0         1       European

每行表示一个人的 DNA 中是否有基因。我们正在尝试根据上面的数据对不同的种族进行分类。但首先我们想使用一些聚类算法来可视化集群对于不同种族的外观。我们不会使用这种聚类算法对组进行分类,它只会用于可视化它的外观,如果我们有很好的单独的集群或重叠的集群等。

请为此类数据集推荐一些聚类算法。另外,维度是 10000。这会是聚类的问题吗?我应该先使用一些降维算法吗?如果有,请给出您的建议。提前致谢。

4个回答

你确定了多少个民族?

如果我必须将您的问题形象化,我会以类似朴素贝叶斯的方法确定每个种族的关键影响因素。这些基因(基因组合?!)(包括它们的值)可能与某些种族密切相关,而与另一个种族不相关(或相反)。

将它们放在金字塔图的顶部。在相关值的左侧和右侧放置条形。

“聚类不同种族以进行可视化”似乎更像是在尝试进行有监督的降维,因为在这种情况下您已经知道目标变量。

由于您稍后将使用它进行分类,因此我假设您已经知道种族的数量。这可以使用线性判别分析 (LDA) 来完成。查看这篇文章:https ://stats.stackexchange.com/questions/161362/supervised-dimensionality-reduction

程序-1

我认为如果你可以尝试组合一些基因会更好,很可能有些遵循类似的趋势,一旦你确定它们尝试组合它们。

您可以使用一些降维,然后您可以从数据中获得更多意义,截至目前,即使您直接给出,模型也可能需要时间来理解并给出一些有用的结果。

一旦获得降维的结果,您就可以直接应用多类分类算法,如SVMRF等。

程序-2

您可以尝试的另一件事是,您可以将所有特征(Gener's)连接成一个单一特征,并尝试理解并查看是否有意义/获得一些好的见解(探索性分析)。

如果您有任何问题,请告诉我。

SVM:支持向量机

RF : 随机森林

我怀疑种族群体的数量很大,并且您会获得足够大的来自不同种族背景的随机样本来与之合作。所以我提出以下建议:

您可以使用现有的粒度较小的种族分组,而不是使用聚类(无监督分割)。假设您的原始数据集中的独特种族群体类似于https://en.wikipedia.org/wiki/List_of_contemporary_ethnic_groups中的种族群体, 那么您可以对较小的群体使用高级别的分组,例如 https://www.google 中的群体。 com/search?q=ethnic+grouping+in+the+world&rlz=1C1CHBF_enUS810US810&oq=ethnic+grouping+in+the+world&aqs=chrome..69i57.10445j0j8&sourceid=chrome&ie=UTF-8 用于了解高级组配置文件:例如通过分析在每个组中更普遍的基因特征的频率计数的降序。从技术上讲,您可以使用原始的更细化的种族群体来做同样的事情。

通常你不能对基因特征应用传统的主成分分析,因为它们是分类的,值为 0 或 1,但你可以应用一种不需要连续变量输入的更合适的方法,比如我们在这个 R 包中使用的方法:https: //cran.r-project.org/web/packages/FactoMineR/index.html

一次聚类和推荐:

您还可以尝试显式协同过滤,该过滤要求数据采用逐项用户的格式,方法如下:

  1. 由于基因特征都是二进制的,您可以使用您的种族数字 id 作为评级,但您必须将其转换为从 1 到 N 个不同种族的数字
  2. 将 person 定义为 user 维度,将每个基因特征的 id 定义为 item 维度
  3. 将数据重新组织为 [Person,genes,group],其中genes=[1,2,...,N_genes] 和 group=[1,2,...,N_ethnic] 仅保留基因特征=1 的行在这种格式中,在不存在组合的情况下假定为零值,将训练和验证数据集中的数据分开
  4. 在训练数据上应用替代最小二乘 ( https://spark.apache.org/docs/2.2.0/ml-collaborative-filtering.html ),然后使用验证数据来验证 ALS 预测种族的程度,可以使用上述较小种族中的元素数量作为 ALS 过程中的初始组件数量
  5. 如果给定所有人基因特征的每个种族的正确预测数量合理地高于错误预测,则使用该模型来预测种族成员,您还可以查看每个种族所特有的基因特征的组合这个结果。