多项逻辑回归中的类别数量是否有限制?

机器算法验证 回归 回归策略 多类 多项式logit
2022-04-02 19:30:48

它知道这是一个非常笼统的问题,但我想知道如果我的因变量(甚至预测变量)中的类别数量超过例如 10 个,我应该期待什么样的问题。

3个回答

有很多方法可以思考这个问题。可能首先要考虑的是资源依赖,归结为您在哪里进行分析:笔记本电脑还是大规模并行平台?您应该询问可以访问多少 RAM 或内存。RAM 会影响您的软件的能力,例如,反转叉积矩阵或收敛到具有封闭形式算法的解决方案。很明显,平台越大,可用的 RAM 越多,可以处理的矩阵就越大。其次,还有软件方面的考虑,例如,众所周知,R 无法处理太多的分类信息,无论是在目标变量还是特征变量中。其他包(如 SAS)具有更大的固有容量。

接下来,存在支持分析的方法或理论的问题——例如,常客或贝叶斯?推理或预测和分类?统计学还是机器学习和计算机科学?精确还是近似?

从历史上看,当交叉乘积矩阵变得太大而无法反转时,常客会举手失败。一个很好的例子是与目标有 3 个以上水平的概率模型。使用经典的封闭式统计模型,10,000 年内没有足够的 CPU 来解决这个问题。另一方面,贝叶斯主义者是第一个确定解决此问题的方法的人。让我用几个例子来说明这一点。十五年前,Steenburgh 和 Ainslie 写了一篇论文Massively Categorical Variables: Revealing the Information in Zip Codes为这个问题提供了分层贝叶斯解决方案。在您的情况下,您有一个多项目标——他们的方法很容易从特征推广到目标。Ainslie 方法(和许多贝叶斯模型)生成大量参数并不是不可克服的。它可能不是最有效的解决方案。接下来,在 Gelman 和 Hill 的著作Data Analysis Using Regression and Multilevel/Hierarchical Models中,他们提出了使用多级分类变量进行贝叶斯分析的可能性,其中一些分类变量仅包含单个观察值,即非常稀疏的信息。这种反直觉概念的关键在于,跨多次抽签的单一观察信息将由后验总结。请注意,这些是贝叶斯近似启发式解决方法。

今天,即使是常客也可以使用这种启发式的、近似的变通方法,例如,bootstrapping、jacknifing、Breiman 的随机森林、计算机科学驱动的算法,如用于海量数据的“分而治之”(D&C)或“bag of little jacknifes”(BLJ)挖掘,例如,参见 Wang 等人的论文,大数据统计方法和计算的调查 大数据 统计方法和计算的调查*. 这些方法不会使贝叶斯解决方案过时(以前是唯一的游戏,例如反转巨大的交叉积矩阵),它们只是使贝叶斯方法变得不必要。这些重采样方法再次出现了软件考虑,因为我听说 R 不容易允许所需的大量甚至大量的迭代循环,但是,我不是 R 人,所以我很容易出错。

Minge 和 Chen 在题为“ A Split-and-Conquer Approach for Analysis of Extraordinally Large Data ”的论文中解决了有关这些近似变通方法的准确性的问题。他们得出的结论是,与基于“完整信息”、固定数据的分析相比,这些方法的精度没有显着降低。

最后,面对海量信息进行推理的考虑对 21 世纪的统计分析产生了许多影响。仅提及一项,经典的 20 世纪统计分析和方法必须进行调整和更新,以反映当今的现实。Hastie 和 Efron 的新书Computer Age Statistical Inference包含大量从大量信息中推导的建议。特别是,我喜欢他们在第 10 章中关于自举和自举与泰勒展开的经典方法的讨论。

多项逻辑回归中的类别数量没有硬性限制,但参数的数量会增长非常快,因此您将需要大量具有许多类别的数据。此外,对于许多类别,结果的解释将很困难。这个问题非常广泛,您最好针对您的实际问题提出一个更集中的问题!

由于估计单个概率需要 96 个观测值才能达到 +/- 0.10 的误差范围,因此可以说,如果您在通过交叉分类形成的最小单元格中至少有 96 个观测值Y与任何分类Xs 的类别数Y统计上没有问题。

请参阅此处提供的我的回归建模策略课程笔记的第 10.2.3 节