数据挖掘 - XGBoost 排名文件格式 - 吾爱随笔录

数据挖掘 xgboost 排行

2022-03-10 10:33:40

该xgboost软件包有两个必须用于排名的文件：

我不明白每个文件中的两件事：

2个回答

自从我问了这个问题以来，似乎文档被扩展了：

我们需要提供一个“.group”文件。例如，该文件可能是

2
3
这意味着，数据集包含 5 个实例，前两个实例在一个组中，其他三个在另一个组中。组文件中的数字实际上是按顺序表示实例文件中每个组的实例数。

在我的理解中，排名意味着哪个更有可能是正样本。因此它用于对测试数据进行排序以进行信息检索或推荐。

所以，每个组应该有一个正样本（可能更多？我不确定）。在文件train.txt中，第一行是实例标签（你可以在文档中看到这个）。

在组文件中，每一行是一个组的大小。所以火车数据应该按组排序，而不是打乱。

根据你的描述，也许reg:logistic就是你想要的——在label列描述x1 > x2 > x3 in [0,1]，训练模型和预测，然后groupby data an

其它你可能感兴趣的问题