目标不是复制过去分类的随机森林

数据挖掘 机器学习 随机森林
2022-02-11 18:56:48

通常,当我训练一个随机森林将观察结果分类为多类桶时,目标是根据历史(训练)数据正确预测观察结果将落入哪个桶中。

相反,我想训练随机森林以根据其他一些标准对观察结果进行分类,例如利润最大化。这可能吗?

这是一个例子:

假设我们有过去 1 年的 Dropbox 订阅数据。一些 Dropbox 潜在客户(潜在客户)有 3 个可能的优惠券中的 1 个,其他潜在客户没有优惠券。

在这种情况下,考虑到他们购买订阅的可能性、他们的预计留存率(他们将继续订阅的月数)以及购买价格的优惠券。

从理论上讲,一些可能购买订阅并被保留的潜在客户不需要优惠券即可。其他人可能会从“每月 5 美元折扣”或“第一个月免费”等优惠券中产生更高的净收入。

我认为因变量应该仍然是优惠券类型,即

Y = No Coupon, Coupon A, Coupon B, Coupon C, Coupon D

是否有可能使随机森林以这种方式工作?您可以考虑这个问题与语言无关,但如果我有选择,我会尝试在 R 中执行此操作。

我知道在 R 或 Python 中的 eXtreme Gradient Boosting 的情况下,我可以指定一个自定义目标函数。

1个回答

您的目标变量应始终反映您尝试优化的内容(最大化或减少),因此如果您想最大化收入,您应该将收入作为目标变量。我会将优惠券用作自变量。当您想查看是否为特定客户提供优惠券时,请在您的模型中为优惠券/无优惠券的每个排列输入一条新记录,并查看哪个具有最高预测。可能有其他/更好的方法可以做到这一点,但我认为这应该得到你想要的。