群体中的属性同时出现

机器算法验证 相关性 聚类 多元分析
2022-03-27 17:45:40

我有 150 个可能出现在 10000 人中的属性。个人可能没有,一个或几个这些属性。这些属性不是相互排斥的,并且在总体中具有不同的频率。

我想在这里回答两个问题:

  1. 这些属性的特定集合是否相关联,即它们在一个人身上出现的频率是否比偶然预期的要多?该方法不仅应该分析两个属性的成对共现,还应该识别一起出现的属性集。理想情况下,我希望有一个概率度量,比如给定一组属性的 p 值,告诉我偶然观察到这种属性组合的可能性。

  2. 给定一个样本,例如 10000 人中的 50 人,我想知道在样本中观察到的属性的共现是否与人口中的随机样本显着不同。

我如何最好地用统计/数学术语解决这个问题?您可以推荐任何用于计算的工具吗?

1个回答

对于数量少得多的属性,请考虑使用对数线性模型,或者可能是其他一些广义线性模型,具体取决于生成数据的基础过程。具体来说,每个感兴趣的“属性”都应该被视为一个二元变量(属性的存在与不存在)。请注意,这种方法可以灵活地处理具有任意数量类别的变量。这种方法的要点是,您正在根据使用的 P 变量对 P-way 表中的日志单元计数进行建模。您的问题编号 (1) 涉及测试变量之间的相互作用。您的问题 (2) 将涉及基于组成员身份创建一个新的分类变量,并测试这个新变量是否与日志单元计数显着相关。

根据您的目标,您应该研究潜在的类模型这类似于 PCA,但适用于分类变量。如果您确实希望使用问题中所述的大量变量,这将以最佳方式组合初始变量,从而将它们减少到较少数量的变量,从而尽可能多地捕获总方差的一部分. 这可能有助于实现您的目标 (1),因为您可以看到哪些变量被组合在一起。