为了将它们用作统计模型中的输入(预测器),有哪些技术可用于将许多类别折叠(或合并)为少数几个类别?
考虑一个变量,比如大学生专业(本科生选择的学科)。它是无序的和分类的,但它可能具有数十个不同的级别。假设我想在回归模型中使用专业作为预测变量。
将这些级别按原样用于建模会导致各种问题,因为实在太多了。使用它们会丢弃大量统计精度,并且结果难以解释。我们很少对特定专业感兴趣——我们更有可能对专业的广泛类别(子组)感兴趣。但并不总是很清楚如何将级别划分为这样的更高级别的类别,甚至不知道要使用多少更高级别的类别。
对于典型数据,我很乐意使用因子分析、矩阵分解或离散潜在建模技术。但是专业是相互排斥的类别,所以我不愿意利用它们的协方差来做任何事情。
此外,我不关心主要类别。我关心生成与我的回归结果一致的更高级别的类别。在二元结果的情况下,这对我来说暗示了类似线性判别分析 (LDA) 的方法来生成更高级别的类别,从而最大限度地提高判别性能。但是 LDA 是一种有限的技术,对我来说这感觉就像是在挖掘脏数据。此外,任何连续的解决方案都将难以解释。
同时,基于协方差的东西,如多重对应分析 (MCA),在这种情况下对我来说似乎是可疑的,因为相互排斥的虚拟变量之间存在固有的依赖性——它们更适合研究多个分类变量,而不是多个类别的同一个变量。
编辑:要清楚,这是关于折叠类别(而不是选择它们),并且类别是预测变量或自变量。事后看来,这个问题似乎是“把它们全部规范化,让上帝把它们整理出来”的合适时机。很高兴看到这么多人对这个问题感兴趣!