数据挖掘 - 进行数据分析的顺序？ - 吾爱随笔录

我有一个包含 4700 条记录的数据集，这是一个分类问题。班级比例分别为 33% 和 67%

几个问题

1）这个比例是否使数据集不平衡？

2) 我应该进行交叉验证然后应用（过/下或 SMOTE 抽样）还是我应该首先通过这些抽样技术平衡我的样本然后进行交叉验证？

3) 为什么倾向评分匹配仅用于医疗保健相关研究，而在其他应用中很少使用？

4）倾向得分匹配与其他机器学习分类算法有何不同？