我已经多次分析了一个我无法真正进行任何分类的数据集。要查看是否可以获得分类器,我通常使用以下步骤:
- 根据数值生成标签的箱线图。
- 将维度降低到 2 或 3 以查看类是否可分离,有时也尝试使用 LDA。
- 强制尝试拟合 SVM 和随机森林,并查看特征重要性,看看这些特征是否有意义。
- 尝试改变类和技术的平衡,如欠采样和过采样,以检查类不平衡是否可能是一个问题。
还有很多其他的方法我能想到,但没有尝试过。有时我知道这些特征并不好,并且与我们试图预测的标签完全无关。然后我使用这种商业直觉来结束练习,得出的结论是我们需要更好的功能或完全不同的标签。
我的问题是数据科学家如何报告无法使用这些功能进行分类。是否有任何统计方法来报告这一点或首先在不同的算法中拟合数据并查看验证指标是最佳选择?