我对分析有一些疑问。我有一个类别不平衡的数据集。我正在尝试从该数据中调查一些信息,例如,有多少 url 包含 http 或 https 协议。我的结果如下:
http in dataset with class 1: 10
http in dataset with class 0: 109
https in dataset with class 1: 180
https in dataset with class 0: 1560
我正在尝试基于某些功能构建分类器,并且应该考虑协议的存在。但是,基于上述结果,您认为我应该说什么?说大多数具有 0 类的网站都有 https 协议是否有意义,即使我有一个类不平衡的数据集?对于模型,我会考虑重采样技术。我应该在重新采样后进行此分析(因此得出此结论),还是通过其他测试检查特征重要性(例如,皮尔逊相关性,如果在这种情况下合适的话)?
任何建议将不胜感激。