可以训练随机森林以适当地预测计数数据吗?这将如何进行?我有相当广泛的价值观,所以分类并没有真正的意义。如果我使用回归,我会简单地截断结果吗?
我在这里很迷茫。有任何想法吗?
可以训练随机森林以适当地预测计数数据吗?这将如何进行?我有相当广泛的价值观,所以分类并没有真正的意义。如果我使用回归,我会简单地截断结果吗?
我在这里很迷茫。有任何想法吗?
我看到了几种可能性。
更新 (2020-12-11)自从写下这个答案后,一场 Kaggle 竞赛(M5 竞赛)向我展示了一种情况,即在 LightGBM 框架中使用泊松损失对于计数较少的零售数据非常有效。我不知道它比均方误差好多少,但许多公共笔记本都在使用它,而且它很容易切换。我不认为我的第二个子弹是一个好主意,但我会留下它。
好吧,它不是随机森林,但CatBoost支持泊松损失函数,可用于提升树的计数回归:
https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/