我正在尝试预测客户对营销活动的反应。到目前为止,我有来自一个营销活动的数据和我客户的 RFM 数据。
部分客户说 60% 收到了广告。大约 10% 的人回复了
根据响应数据,即是否购买,在这个营销活动中,我使用 scikit-learn 构建了一个随机森林。
该模型在保持集上的表现非常好。但最有影响力的变量是布尔值:CustomerHasBeenAdvertised
我想使用这个模型,为未来的营销活动选择客户。为了获得类似广告条件下客户的“购买概率”,我将变量 CustomerHasBeenAdvertised 设置为 1。
但是,在具有这种附带条件的数据集上,所有预测均高于 0.5。
由于可变重要性,这是额外的普通高价值吗?还是有其他解释?
将变量 CustomerHasBeenAdvertised 设置为 1 是错误的方法吗?
如果是这样,如何处理这种情况:客户在没有广告的情况下购买了?
是否应该简单地忽略广告是否发生的信息?
提前致谢