类数多、特征数多、样本量小的多类分类

数据挖掘 分类 回归 特征选择 降维 正则化
2022-02-15 21:35:26

我正在研究一个具有超过 300K 特征的生物学相关数据集,而我只有大约 5K 个样本。我希望我的模型对许多类进行分类。特别是对于这个问题,类别是年龄。每个年龄(例如 10 岁或 35 岁)都是单独的班级。所以这个问题大约需要 80 个类(范围从 10 到 90)。

我立即知道需要正则化来减少特征数量以防止过度拟合。我只是不知道这样的数据集是否可以被视为具有许多类的多类分类问题。如果我需要更多数据,模型学习多少数据就足够了?或者有什么聪明的方法可以解决这个问题吗?

1个回答

您可以尝试降技术,例如PCA,这将减少您的特征数量并最大化描述您的对象的信息。

此外,如果您想对作为连续变量的年龄进行分类,您可能想尝试回归而不是分类