我的目标变量遵循泊松分布。我必须从大约 2000 个变量中选出最好的变量。是否存在用于泊松类型分布的变量选择的任何方法。到目前为止,我熟悉变量减少方法,如套索、IV、逐步、PLS。我可以尝试泊松的一些想法是什么?如果我将目标转换为 log(y) 并将其视为变量选择的线性模型,它会运作良好吗?
泊松回归中变量选择的最佳方法是什么?
机器算法验证
特征选择
泊松回归
2022-04-14 09:28:20
1个回答
您可以使用套索或弹性网络正则化。glmnet
如果您是具有泊松因变量的 R 用户,则两者都可以在 中使用,使用该family=poisson
选项。希望您有足够的观察结果能够拆分数据集并进行交叉验证。
通常最好避免逐步选择方法,特别是对于 2000 个变量。
log(y)
如果数据是泊松的,这不是一个好主意,因为您将采用零日志。当然你可以使用log(y+1)
,但由于glmnet
支持泊松分布,除非存在计算限制,否则这似乎没有必要。
其它你可能感兴趣的问题