简而言之:在为 xgboost 选择参数值时如何考虑我的变量的类型和分布?
上下文:我有一个数据集,我想使用binary:logistic
目标对其进行分类(我正在使用 R 实现)。我想知道目视检查我的数据集中的变量是否可以告知参数值的选择,如果可以,那么通常如何进行。
示例:具有二元结果变量和二元/连续预测变量混合的数据集。
结果变量(每次观察一个值):
一组称为风味(~150 个变量)和纹理(~80 个变量)的预测变量具有二进制值 0、1。每个观察值都有一个或多个风味和纹理(水平轴上每个观察值的 f/t 数):
某些风味/质地比其他风味/质地更容易出现(水平轴上的频率):
我添加了一些定量变量来总结每次观察的风味/质地。我计算了每个 f/t 的频率(= 发生该 f/t 的观测值的百分比),然后计算min
(给定观测值中最独特的 f/t)max
(最常见的 f/t)和mean
(平均频率) .
除此之外,还有另外三个连续变量:
如果有的话,可以从中得出关于模型参数的什么结论?