减少运气对我的训练数据的影响

数据挖掘 统计数据 随机森林 预处理
2022-02-24 12:13:08

我是这个数据科学的新手,我正在尝试自己的一个项目来了解更多关于这个领域的信息。所以我有一个项目,其目标是采用一系列功能并指示球员是否会投篮。

我当前的训练数据在每次观察的输出旁边都有一堆特征。我计划使用 Random Forrest 模型,因为我对它感到满意(并且它符合目标),但是,我看到的一个问题包括确保运气不会在输出决策中发挥作用。

我试图想办法限制运气对模型的影响。对于任何熟悉篮球的人来说,有时一名球员会投出一记精彩的投篮并投失——有时他会投出可怕的投篮并成功(这两种情况都将包含在我的训练集中)。我不希望模型因为幸运/不幸命中/未命中而“认为”一个镜头是好/坏。

所以我的问题是如何限制运气在我的数据集中的影响,或者我只能假设一个足够大的数据集会照顾好运气,因为一个人以相对相等的比率获得幸运和不幸(正态分布) 还是我改为恢复到一个无监督模型,该模型的测试数据不包括该镜头是未命中还是命中?或者是否有另一种选择来做一些我没有考虑过的事情来改善数据?

感谢您的反馈意见。

1个回答

如果你的训练数据足够大,模型就会有足够的信息通过数据中的统计来处理机会。例如,一个出色的投篮可能在 80% 的情况下成功,因此如果数据中有 10 个出色投篮的实例,那么其中应该有大约 8 个成功。换句话说,模型将使用数据的分布来做出最好的预测。

应用模型时,预测是确定性的,因此一个实例只能有一种可能的结果。但是,对于大多数类型的模型,您可以根据模型而不是二元答案获得成功概率。

小提示:

  • 幸运或不幸将是伯努利或二项分布,而不是正常分布。
  • 无监督学习将是一项完全不同的任务,因此这样做是没有意义的。