在多个数据集上对特征选择进行排序

数据挖掘 机器学习 分类 特征选择 排行
2021-10-05 04:29:03

通过向后消除,我得到了多个数据集上的特征排名。例如,在数据集 1 中,我有以下排名,顶部的特征是最重要的:

  1. 壮举。1
  2. 壮举。2
  3. 壮举。3
  4. 壮举。4.

...

,而对于数据集 2,我有例如以下排名:

  1. 壮举。3
  2. 壮举。1
  3. 壮举。2
  4. 壮举。4.

我想过滤掉那些最终排名最高的功能(包括排名第一比排名第三更好)。我可以使用哪种排名指标来解决这个问题?

2个回答

一个容易尝试的方法是平均排名,您可以在其中取每个特征的排名平均值。对于你的例子,

FeatureAvg. Rank11.53222.544

如果您正在测试的数据集大小不同,您还可以根据数据集的大小对排名进行加权。

应该有一个计划

  • 将数据集视为特征之间的“匹配”
  • 随机化匹配的顺序(按时间顺序插入它们,如果有的话)并在评级系统引擎中插入结果。

如果您对使用更多而不是开发感兴趣,rankade是我们针对体育、游戏等的免费排名系统,它允许与 2 和 3+ 派系进行比赛,而EloGlicko仅适用于一对一(这里是比较此外,rankade 具有权重功能(所有数据集都具有相同的影响?),可以改进您的工作。