我正在使用 XGBoost 解决二进制分类问题,并且我有一个数据集,每个用户的观察次数不均匀。对于某些用户,有超过 100 个观察值,而对于某些用户,只有少数几个。“USER_ID”功能不用作 XGBoost 的输入。
更具体地说,我正在尝试对睡眠质量方面的用户身体活动(从可穿戴追踪器收集的数据)进行建模,其中一些变量是人口统计特征,例如年龄和性别,以及步数、心率等。考虑到不同的从用户那里收集的数据量很大,由于观察的数量,一些用户行为(如夜班工作)在数据中的表现比其他行为更多。
在使用 XGBoost 时我应该如何考虑这一点?
USER_ID AGE SEX X1 X2 ... y
1 20 M 65 3000 ... 1
1 ... ... ... ... ... 0
1 ... ... ... ... ... 1
2 30 F 80 2500 ... 0
2 ... ... ... ... ... 1
3 40 M 77 8000 ... 0
这些类是平衡的,我能够为分类器获得良好的性能。