在使用逻辑回归、支持向量机、决策树、装袋和许多其他类似问题时,我们已经有多个关于不平衡数据的问题,是什么让它成为一个非常受欢迎的话题!不幸的是,每个问题似乎都是特定于算法的,我没有找到任何处理不平衡数据的一般准则。
引用Marc Claesen 的答案之一,处理不平衡的数据
(...) 很大程度上取决于学习方法。大多数通用方法都有一种(或几种)方法来处理这个问题。
但是我们究竟应该在什么时候担心不平衡的数据呢?哪些算法主要受它的影响,哪些算法能够处理它?哪些算法需要我们平衡数据?我知道在这样的问答网站上讨论每种算法是不可能的。我宁愿寻找关于何时可能出现问题的一般指导方针。