我正在研究二进制分类问题,目前正在使用 XGBoost。数据集由几个变量组成,这些变量是计数变量。问题是,这些功能在数量上存在很大偏差。例如,这些是变量之一的每个值的计数:
0.0 98.175855
1.0 1.275902
2.0 0.348707
3.0 0.199535
这里建议我应用零膨胀泊松或零膨胀负二项式回归模型。我想知道这些模型是如何工作的。
- 这些是否用于特征转换,这将为我提供然后可以提供给 XGBoost 的特征,还是应该将它们用作分类器?
- 我的数据是计数和连续特征的混合体。我应该只对计数变量或所有变量使用这些模型吗?
如果有人可以建议一个很好的参考来直观地理解这些模型,那将非常有帮助。