我有数千个数据源从类似类型的硬件生成数据。但是,不同的来源会在数据集中创建不同的动态!
即使特征相同,数据集也具有非常多样化的特征。
我正在研究一个多类分类问题,试图了解可以使用多少特定模型来解决该领域。
不同数据源的类数量不同,因此需要构建不同的模型。这意味着最终我要评估许多不同的模型。类似的输入,但输出时要预测的类数不同。
由于这是一个多类分类问题,因此使用了混淆矩阵和多条 ROC 曲线。
现在我试图更详细地了解可能导致性能最差的模型性能不佳的原因。通常原因是:1.没有足够的测量值 2.严重不平衡的数据集 3. 1 和 2 的组合
问题是我没有关于多类问题的定义,什么是不平衡数据集。理想情况下,如果我可以使用特定的“规则”来标记我的数据集,我将能够看到诸如不平衡集和精度的相关性之类的东西。
当涉及到多个类别的不平衡数据集时,阈值是不够的,因为类别之间可用测量的分布很重要。为此,我不知道如何处理。
你会如何处理这个案子?
非常感谢您阅读本文并为这个社区做出贡献。
问候亚历克斯