我正在开展一个使用博彩公司赔率预测足球比赛的项目。我的 6 列分别是主队、客队、主队获胜赔率、平局赔率、客队获胜赔率、结果。
可能的足球比赛结果是客队获胜 (A)、平局 (D) 和主队获胜 (H)。我一直在使用标签编码器来表示变量(分别为 0、1、2),但我发现结果可能不是有序的(因为它没有顺序/等级/偏好)。
问题
- 在这种情况下,我应该继续使用标签编码器还是应该使用一种热编码?还是取决于使用的模型(例如基于树的模型或线性模型等)?
- 如果我应该更改为一种热编码,我应该如何确保我的预测向量输出两个 0 和一个 1(因为它必须是 A、D 或 H),因为有时它给了我一个包含三个 0 的向量?
- 我为足球队使用了一种热编码(主队和客队各 20 支球队)。由于一支球队必须与一支独特的球队比赛,因此前 20 列中存在一个 1 和 19 个 0,而接下来的 20 列中存在一个 1 和 19 个 0。跨列的这种关系/限制是否会以任何方式影响模型?
- 与之前的 5 个特征相比,我现在有 20+20+3=43 个特征,我应该对其应用 PCA 等降维技术吗?我已经读过,如果构建树模型,则很少使用 3 个数字特征(博彩公司的赔率)。或者我可以只增加 RandomForestClassifier 的 max_features 吗?
提前致谢!