我可以使用哪些统计方法来查找分类变量的流行或常见组合?

机器算法验证 假设检验 聚类 组合学 关联度量 关联规则
2022-03-04 11:55:57

我正在研究多种药物的使用。我有一个包含 400 名吸毒者的数据集,每个人都说明了他们滥用的药物。有超过 10 种药物,因此有很大的可能组合。我已将他们消耗的大部分药物重新编码为二进制变量(即,如果吸毒者滥用海洛因,则海洛因为 1,否则为 0)。我想找到 2 或 3 种药物的流行或常见组合。有我可以使用的统计方法吗?

3个回答

假设每个用户至少使用了一种药物,那么只有 1024 种可能的药物组合可以一起使用(如果只有 10 种药物)。您可以简单地将您的 0/1 变量转换为字符串并将它们连接起来并对字符串运行频率分析以查看哪些组合出现的频率最高。举个玩具例子,假设你的研究中只有 3 种药物,A、B 和 C。如果参与者使用药物 A 和 C,则变量alldrugs可以编码为 101。仅使用药物 B 的参与者将编码为 010。在这些上运行频率以找到最常选择的那个。大多数软件应该能够在几秒钟内处理这个。

潜在类别建模将是一种有监督的学习方法,用于发现潜在的“隐藏”分区或毒品和吸毒者分组。LC 是一种非常灵活的方法,具有两种广泛的方法:基于对单个受试者的重复测量的复制与基于交叉分类一组分类变量的复制。您的数据适合第二种类型。

LC 的灵活性取决于其吸收具有不同比例(例如,分类或连续)的变量“混合”的能力。由于该方法在数据中找到隐藏的分区、段或集群,因此也可以将其视为一种降维技术。

所有 LC 模型都有 2 个阶段:在第 1 阶段,确定因变量或目标变量并建立回归模型。在第 2 阶段,分析来自第 1 阶段模型的残差(单个“潜在”向量),并创建分区以捕获该向量中的可变性(或异质性)——“潜在类别”。

免费软件可供下载,可能对您很有效。其中之一是一个名为 polCA 的 R 模块,可在此处获得:

http://www.jstatsoft.org/article/view/v042i10

如果您有大约 1,000 美元可用于商业产品,可以从 www.statisticalinnovations.com 获得 Latent Gold 多年来一直使用Latent Gold,我是该产品的忠实粉丝,因为它具有分析能力和解决方案的范围。例如,polCA 仅对具有分类信息的 LC 模型有用,而 LG 则全面工作……此外,他们的开发人员总是在添加新模块。最近添加的内容是使用隐藏马尔可夫链构建 LC 模型。但请记住,LG 不是一个“端到端”的数据平台,即它不适合繁重的数据操作或提升。

否则,还有很多其他方法可以分析分类信息,这些方法得到了 R、SPSS、SAS、Python 等统计软件的广泛支持。这些方法包括列联表分析、对数线性模型、有限混合模型、贝叶斯张量回归、等等。该领域的文献非常广泛,始于 Bishop 等人, 1975 年的离散多变量分析,基于他自 80 年代以来所做的工作,延伸到 Leo Goodman 的 RC 模型,Agresti 的分类数据分析,斯蒂芬·芬伯格的书籍,包括 Thomas Wickens ' 1989 年出版的优秀著作《社会科学的多维列联表分析》 。贝叶斯张量回归是杜克大学大卫·邓森 (David Dunson) 的一篇论文的标题,它是一种“最先进”的方法,是一种最近用于建模大规模多路列联表的方法。

你直观地想到了什么?您想计算组合,为什么不找到所有可能的组合并简单地计算呢?我建议你研究一下频繁项集挖掘。

维基百科-先验

以下是一些相同的实现:

频率模式挖掘