我正在移动广告定位领域进行数据分析。我有大约18 个功能,对于这些功能的组合,结果是 True 或 False (1/0),具体取决于印象是否被点击。这里的问题是输出类是高度倾斜的。点击率约为0.4%。(即值是 1 只有 4 出 1000 次)。我有一个200 万行的数据集,我使用 90% 作为训练集和 10% 作为测试集。我在python中使用了sckit-learn包中的逻辑回归. 现在在训练我的模型后,我将测试集的所有值都设为 0。请告诉我问题可能是什么,我应该怎么做才能解决它?
PS:我已经尝试增加我的数据集大小并减少特征数量(甚至只有一个特征)。如果我看到测试集中每个类(0/1)的概率,我得到大约 0.002 - 0.005 的 1。
谢谢