数据挖掘 - 减少运气对我的训练数据的影响 - 吾爱随笔录

我是这个数据科学的新手，我正在尝试自己的一个项目来了解更多关于这个领域的信息。所以我有一个项目，其目标是采用一系列功能并指示球员是否会投篮。

我当前的训练数据在每次观察的输出旁边都有一堆特征。我计划使用 Random Forrest 模型，因为我对它感到满意（并且它符合目标），但是，我看到的一个问题包括确保运气不会在输出决策中发挥作用。

我试图想办法限制运气对模型的影响。对于任何熟悉篮球的人来说，有时一名球员会投出一记精彩的投篮并投失——有时他会投出可怕的投篮并成功（这两种情况都将包含在我的训练集中）。我不希望模型因为幸运/不幸命中/未命中而“认为”一个镜头是好/坏。

所以我的问题是如何限制运气在我的数据集中的影响，或者我只能假设一个足够大的数据集会照顾好运气，因为一个人以相对相等的比率获得幸运和不幸（正态分布) 还是我改为恢复到一个无监督模型，该模型的测试数据不包括该镜头是未命中还是命中？或者是否有另一种选择来做一些我没有考虑过的事情来改善数据？

感谢您的反馈意见。