数据挖掘 - 如何惩罚 DataFrame 中的空字段？ - 吾爱随笔录

数据挖掘熊猫数据

2022-01-21 21:36:07

我必须计算整个赛季赛车手的一致性。我的 DataFrame 由 10 列（10 个电路名称）组成，对于这些列中的每一列，我都有司机在该电路中发布的单圈时间标准偏差。换句话说，车手从一圈到一圈的稳定性如何。在比赛中，车手没有完成比赛，场地是空白的。

到目前为止，我已经通过平均所有 10 列来计算他们的平均赛季一致性。但是，没有完成比赛会对车手的稳定性产生负面影响，我不知道如何实施。

1个回答

这在很大程度上取决于领域知识。一般的方法是放置

每个电路中最差或平均一致性的乘积 $c$ ， IE $(1 + m)\text{max}(\sigma_c)$ 或者 $(1 + m)\text{avg}(\sigma_c)$ 分别对于该电路的空值，或
每个驱动程序的最差或平均一致性的乘积 $d$ ， IE $(1 + m)\text{max}(\sigma_d)$ 或者 $(1 + m)\text{avg}(\sigma_d)$ 分别为他们未完成的比赛，或
驱动器和电路平均一致性的平均值的乘积，即 $(1 + m)[\text{avg}(\sigma_d) + \text{avg}(\sigma_c)]/2$ , 对于未完成的车手比赛 $d$ 在电路 $c$ ，或其他一些组合。

无论选择哪种方法，系数的选择 $m$ 影响最终排名，可以确定

主观地从专家的角度查看排名并选择更有意义的排名，或
通过尝试一系列值，例如 $m \in \{-0.2, -0.1, 0, 0.1, 0.2, .., 0.5\}$ 并平均一致性 $\sigma_d$ 或排名 $R_d$ 为每位司机 $d$ . 这种方法的一个优点是，当驾驶员的等级在不同的 $m$ ，这意味着司机的等级对选择不敏感 $m$ ，即争议较小，并且当排名随着不同的选择而变化很大时 $m$ ，平均排名更有争议。

其它你可能感兴趣的问题