如何惩罚 DataFrame 中的空字段?

数据挖掘 熊猫 数据
2022-01-21 21:36:07

我必须计算整个赛季赛车手的一致性。我的 DataFrame 由 10 列(10 个电路名称)组成,对于这些列中的每一列,我都有司机在该电路中发布的单圈时间标准偏差。换句话说,车手从一圈到一圈的稳定性如何。在比赛中,车手没有完成比赛,场地是空白的。

到目前为止,我已经通过平均所有 10 列来计算他们的平均赛季一致性。但是,没有完成比赛会对车手的稳定性产生负面影响,我不知道如何实施。

1个回答

这在很大程度上取决于领域知识。一般的方法是放置

  1. 每个电路中最差或平均一致性的乘积c, IE(1+m)max(σc)或者(1+m)avg(σc)分别对于该电路的空值,或

  2. 每个驱动程序的最差或平均一致性的乘积d, IE(1+m)max(σd)或者 (1+m)avg(σd)分别为他们未完成的比赛,或

  3. 驱动器和电路平均一致性的平均值的乘积,即(1+m)[avg(σd)+avg(σc)]/2, 对于未完成的车手比赛d在电路c,或其他一些组合。

无论选择哪种方法,系数的选择m影响最终排名,可以确定

  1. 主观地从专家的角度查看排名并选择更有意义的排名,或

  2. 通过尝试一系列值,例如m{0.2,0.1,0,0.1,0.2,..,0.5}并平均一致性σd或排名Rd为每位司机d. 这种方法的一个优点是,当驾驶员的等级在不同的m,这意味着司机的等级对选择不敏感m,即争议较小,并且当排名随着不同的选择而变化很大时m,平均排名更有争议。