R中具有非常多的类级别的响应变量

数据挖掘 r 分类
2021-09-15 12:21:36

我在 R 中有一个因变量,大约有 11,000 个等级。有足够的数据可以对这么多类进行建模,但是一些统计软件包(例如h2o)最多只能支持 1,000 个左右的类。

R 中具有这么多类级别的分类模型的最佳选择是什么?

1个回答

将您的n 个响应类聚类到m个聚类中,其中m < 1,000. 对于传入的实例,使用您最喜欢的分类算法将其分配给m个集群之一。将实例分配给特定集群后,您只需通过对构成该特定集群的类进行训练的分类器来运行它。

我已经使用这种特定的架构将文本分配给 n 种可能的“情绪”之一,我将在下面进行说明。传入的文本首先使用在正负文本上训练的二元分类器进行评分。给定文本为正面的概率(如分类器所预测的那样),然后将文本路由到一系列所有正面或一系列所有负面情绪分类器,并在其中分配特定情绪。

在此处输入图像描述

这种相同的设计应该适用于您的情况。首先,您为您的实例分配一个集群。鉴于该分配,将您的实例发送到下一阶段 - 最终分类发生的地方。