我有两个几乎相同的数据集 A 和 B,它们仅在列排序方面有所不同。然后,我通过以下步骤在两个数据集上分别训练一个 LightGBM 模型:
- 将每个数据集划分为训练和测试(对 A 和 B 使用相同的随机种子和比率)
- 将超参数保留为几乎默认值
- 设置
random_state
为固定数字(用于复制) learning_rate
使用网格搜索调整- 在训练集上训练一个 LightGBM 模型并在测试集上对其进行测试
- 将选择在测试集上表现最好的学习率
基于这两个数据集的两个模型的输出有很大的不同,这让我觉得列的顺序会影响 LightGBM 模型的性能。
你知道为什么会这样吗?