我是这个数据科学的新手,我正在尝试自己的一个项目来了解更多关于这个领域的信息。所以我有一个项目,其目标是采用一系列功能并指示球员是否会投篮。
我当前的训练数据在每次观察的输出旁边都有一堆特征。我计划使用 Random Forrest 模型,因为我对它感到满意(并且它符合目标),但是,我看到的一个问题包括确保运气不会在输出决策中发挥作用。
我试图想办法限制运气对模型的影响。对于任何熟悉篮球的人来说,有时一名球员会投出一记精彩的投篮并投失——有时他会投出可怕的投篮并成功(这两种情况都将包含在我的训练集中)。我不希望模型因为幸运/不幸命中/未命中而“认为”一个镜头是好/坏。
所以我的问题是如何限制运气在我的数据集中的影响,或者我只能假设一个足够大的数据集会照顾好运气,因为一个人以相对相等的比率获得幸运和不幸(正态分布) 还是我改为恢复到一个无监督模型,该模型的测试数据不包括该镜头是未命中还是命中?或者是否有另一种选择来做一些我没有考虑过的事情来改善数据?
感谢您的反馈意见。