数据挖掘 - 目标不是复制过去分类的随机森林 - 吾爱随笔录

通常，当我训练一个随机森林将观察结果分类为多类桶时，目标是根据历史（训练）数据正确预测观察结果将落入哪个桶中。

相反，我想训练随机森林以根据其他一些标准对观察结果进行分类，例如利润最大化。这可能吗？

这是一个例子：

假设我们有过去 1 年的 Dropbox 订阅数据。一些 Dropbox 潜在客户（潜在客户）有 3 个可能的优惠券中的 1 个，其他潜在客户没有优惠券。

在这种情况下，考虑到他们购买订阅的可能性、他们的预计留存率（他们将继续订阅的月数）以及购买价格的优惠券。

从理论上讲，一些可能购买订阅并被保留的潜在客户不需要优惠券即可。其他人可能会从“每月 5 美元折扣”或“第一个月免费”等优惠券中产生更高的净收入。

我认为因变量应该仍然是优惠券类型，即

Y = No Coupon, Coupon A, Coupon B, Coupon C, Coupon D

是否有可能使随机森林以这种方式工作？您可以考虑这个问题与语言无关，但如果我有选择，我会尝试在 R 中执行此操作。

我知道在 R 或 Python 中的 eXtreme Gradient Boosting 的情况下，我可以指定一个自定义目标函数。