我有一个包含 4700 条记录的数据集,这是一个分类问题。班级比例分别为 33% 和 67%
几个问题
1)这个比例是否使数据集不平衡?
2) 我应该进行交叉验证然后应用(过/下或 SMOTE 抽样)还是我应该首先通过这些抽样技术平衡我的样本然后进行交叉验证?
3) 为什么倾向评分匹配仅用于医疗保健相关研究,而在其他应用中很少使用?
4)倾向得分匹配与其他机器学习分类算法有何不同?
我有一个包含 4700 条记录的数据集,这是一个分类问题。班级比例分别为 33% 和 67%
几个问题
1)这个比例是否使数据集不平衡?
2) 我应该进行交叉验证然后应用(过/下或 SMOTE 抽样)还是我应该首先通过这些抽样技术平衡我的样本然后进行交叉验证?
3) 为什么倾向评分匹配仅用于医疗保健相关研究,而在其他应用中很少使用?
4)倾向得分匹配与其他机器学习分类算法有何不同?
您应该适合预处理转换器,即插补、缩放器、编码器、重采样,仅用于训练集并将它们分别应用于训练和测试。您的数据集不平衡,您可能期望使用重采样技术有所改进,但您应该始终确认它进行交叉验证测试。