我正在尝试对客户的数据集运行预测模型,以预测新客户对购买产品 X 感兴趣的可能性,该产品由一家销售 X、Y 产品的公司提供,而 ZEg 会不会这个人,非客户,这个年龄和薪水的,对产品X感兴趣吗?
为了训练模型,我有一盆 100K 的公司客户,其中只有 5K 购买了产品 X,剩下的 95K 购买了其他产品。任何预测模型都会猜测“没有人会购买产品 X”,接受那些约 5% 的假阴性。
如何补偿数据的这种偏斜?即 95% 对 5%?谢谢
我正在尝试对客户的数据集运行预测模型,以预测新客户对购买产品 X 感兴趣的可能性,该产品由一家销售 X、Y 产品的公司提供,而 ZEg 会不会这个人,非客户,这个年龄和薪水的,对产品X感兴趣吗?
为了训练模型,我有一盆 100K 的公司客户,其中只有 5K 购买了产品 X,剩下的 95K 购买了其他产品。任何预测模型都会猜测“没有人会购买产品 X”,接受那些约 5% 的假阴性。
如何补偿数据的这种偏斜?即 95% 对 5%?谢谢
有很多关于罕见事件或不平衡类的信息和技术。很抱歉发布链接,但(https://stats.stackexchange.com/search?q=rare+event和https://stats.stackexchange.com/search?q=imbalanced)但我不想复制所有其他工作。
根据我的经验,我经常不理会数据集。我通常会得到很好的结果。如果这是真实比率,那么我的模型应该知道这一点。有时我对多数类进行了下采样。我之前也玩过 SMOTE(https://arxiv.org/pdf/1106.1813.pdf)。
对于您上面的问题,是的 - 使用权重或过度/取消采样更改数据可能会使结果产生偏差。需要检查。如果您进行下采样,请确保您没有丢弃多数类的信号。
您已经描述了逻辑回归的空模型,在这种情况下,它将预测 P(will buy X)=0.05。任何其他包含您的年龄和薪水协变量的模型都会做得更好。您的响应中每个 1 有 19 个零这一事实不应阻止您尝试制作一个比空模型做得更好的模型。
因此,只需将年龄和薪水作为回归中的线性项并从那里开始。