如何处理机器学习分类问题中的“未知”类别?

数据挖掘 机器学习 分类 阶级失衡 分类器
2021-10-03 10:47:31

教程问题以二进制或多类分类的形式出现,其中数据都被正确标记。在实际应用中,有传入的数据不属于任何类别,无法分类。我们如何处理这些属于“未知”类别的数据?“未知”的宇宙可以远远超过“已知”。因此,“未知”的数据可能太多并导致类别不平衡。我们如何训练模型来处理“未知”数据?还是我们忽略它?

3个回答

我认为这是答案最令人沮丧的主题之一——这取决于

对于您的问题:

我们如何处理这些属于“未知”类别的数据?

有很多方法可以做到这一点。有些非常简单,有些则更复杂,但它们都取决于您对数据的理解以及究竟是什么导致了缺失——例如数据是随机缺失还是有特定原因驱动它?

一些处理缺失值的技术(按复杂度递增的顺序):

  1. 排除所有缺失值。如果您有大量数据和少量缺失值,这可能没问题(并非总是如此 - 您通过提到剩余数据集可能不平衡来暗示这一点)。
  2. 用适当的值替换/分组缺失值 - 例如用变量的平均值替换缺失值/组缺失值最多的级别。
  3. 使用模型/方程估算缺失值 - 例如通过链式方程 (MICE) 进行多变量估算。

我们如何训练模型来处理“未知”数据?

这取决于您使用的模型或技术。一些技术可以很好地处理缺失值(例如xgboost),而其他技术则不能(例如 R 的ranger随机森林实现)。在决定如何处理缺失值时,您应该考虑使用的模型。

还是我们忽略它?

忽略缺失值后果自负!

希望有帮助!

我建议这些方法:

  1. 过采样或欠采样

  2. 而不是准确性考虑AUC或F1分数。

  3. 定义不同类别的预测与现实的成本。

  4. 尝试找到一些规则来找到“未知”,然后将它们从训练数据中删除。

祝你好运。

这取决于您正在使用哪种机器学习。监督机器学习模型需要标记数据以区分各种类别并检测模式。它们通常更受欢迎,因为当标记数据充足时,它们通常比无监督的同类产品更成功。
另一方面,无监督模型根本不需要标记数据。他们只是调查数据并确定相似性,这在某些情况下可能是有利的,因为未标记的数据量足够大,可以为模型提供有效学习所需的资源。这些示例包括深度置信网络、聚类分析和自动编码器。
半监督模型是两者的结合,可以从标记和未标记数据的混合中学习。标记的数据为网络提供了得出可验证结论的基础。
希望这可以帮助。