进行数据分析的顺序?

数据挖掘 数据挖掘 预测建模 阶级失衡
2022-02-26 07:34:29

我有一个包含 4700 条记录的数据集,这是一个分类问题。班级比例分别为 33% 和 67%

几个问题

1)这个比例是否使数据集不平衡?

2) 我应该进行交叉验证然后应用(过/下或 SMOTE 抽样)还是我应该首先通过这些抽样技术平衡我的样本然后进行交叉验证?

3) 为什么倾向评分匹配仅用于医疗保健相关研究,而在其他应用中很少使用?

4)倾向得分匹配与其他机器学习分类算法有何不同?

1个回答

您应该适合预处理转换器,即插补、缩放器、编码器、重采样,仅用于训练集并将它们分别应用于训练和测试。您的数据集不平衡,您可能期望使用重采样技术有所改进,但您应该始终确认它进行交叉验证测试。