所以我有一个数据集,其中包含使用不同给定求解器策略执行问题实例的结果。简化示例:
| Problem_instance | Problem_Size | Used_Solver | Cost |
| P1 | 50 | A | 75 |
| P1 | 50 | B | 125 |
| P1 | 50 | C | 225 |
| P1 | 50 | D | 100 |
| P2 | 150 | A | 165 |
| P2 | 150 | B | 360 |
| P2 | 150 | C | 275 |
| P2 | 150 | D | 45 |
| P3 | 25 | A | 35 |
| P3 | 25 | B | 65 |
| ... | ... | ... | ... |
我正在尝试使用机器学习来预测给定问题实例的最佳性能求解器。在数据处理阶段,我需要标准化或缩放我的数据,但我不确定如何做到最好。
首先,我不确定要使用哪个 sklearn 的 Scaler ( StandardScalar
/ MinMaxScaler
/..)。
其次,我很困惑如何处理每个实例的不同记录。当我首先基于problem_instance
然后使用 a对数据进行分组时MinMaxScaler
,带有的记录Cost = 0
将是这个问题的最佳解决方案,Cost=1
也是最坏的解决方案。但是,如果我使用相同的策略来缩放,Problem_Size
这将在任何地方都等于 0。另一方面,如果我使用全局缩放,则有关哪个 Solver 对每个实例最好的信息都会丢失。
有人可以帮我处理这个问题的数据预处理吗?