对足球比赛结果使用一种热编码 VS 标签编码器

数据挖掘 一热编码
2022-03-12 18:40:57

我正在开展一个使用博彩公司赔率预测足球比赛的项目。我的 6 列分别是主队、客队、主队获胜赔率、平局赔率、客队获胜赔率、结果。

可能的足球比赛结果是客队获胜 (A)、平局 (D) 和主队获胜 (H)。我一直在使用标签编码器来表示变量(分别为 0、1、2),但我发现结果可能不是有序的(因为它没有顺序/等级/偏好)。

问题

  1. 在这种情况下,我应该继续使用标签编码器还是应该使用一种热编码?还是取决于使用的模型(例如基于树的模型或线性模型等)?
  2. 如果我应该更改为一种热编码,我应该如何确保我的预测向量输出两个 0 和一个 1(因为它必须是 A、D 或 H),因为有时它给了我一个包含三个 0 的向量?
  3. 我为足球队使用了一种热编码(主队和客队各 20 支球队)。由于一支球队必须与一支独特的球队比赛,因此前 20 列中存在一个 1 和 19 个 0,而接下来的 20 列中存在一个 1 和 19 个 0。跨列的这种关系/限制是否会以任何方式影响模型?
  4. 与之前的 5 个特征相比,我现在有 20+20+3=43 个特征,我应该对其应用 PCA 等降维技术吗?我已经读过,如果构建树模型,则很少使用 3 个数字特征(博彩公司的赔率)。或者我可以只增加 RandomForestClassifier 的 max_features 吗?

提前致谢!

1个回答
  1. 我预计会有一些订单,因为预期的结果可能取决于团队的实力。但是,如果球队同样强大,也可能会有平局的趋势。如果你有足够的数据来训练你的模型,我猜想 one-hot 编码是更好的选择。
  2. 您的预测向量通常会给出例如 [0.1 0.7 0.2] 作为概率,并且您选择最高概率作为结果。手动或模型中的(最终)层。
  3. 它不应该。典型模型与尺寸无关。例如,完全连接的第一层会丢失所有位置/维度偏差。然而,对于树,类似的论点成立,我不知道树模型在这种稀疏数据上的表现如何。
  4. 博彩公司的赔率应该与预期结果高度相关,例如博彩公司的赔率可能会反映相对强度。在这种情况下,模型中的可能性或多或少会“消失”。对于如此稀疏的数据,您绝对应该仔细调整森林模型的参数。

只是一些补充说明:如果您想改进您的模型,您还可以包括一些计算参数,例如当前排名、两支球队的胜/平率(通常,或只是各自的主/客场版本)、最近的(主场/客场)结果。如果您有数据,甚至可以行驶距离。