泊松回归中变量选择的最佳方法是什么?

机器算法验证 特征选择 泊松回归
2022-04-14 09:28:20

我的目标变量遵循泊松分布。我必须从大约 2000 个变量中选出最好的变量。是否存在用于泊松类型分布的变量选择的任何方法。到目前为止,我熟悉变量减少方法,如套索、IV、逐步、PLS。我可以尝试泊松的一些想法是什么?如果我将目标转换为 log(y) 并将其视为变量选择的线性模型,它会运作良好吗?

1个回答

您可以使用套索或弹性网络正则化。glmnet如果您是具有泊松因变量的 R 用户,则两者都可以在 中使用,使用该family=poisson选项。希望您有足够的观察结果能够拆分数据集并进行交叉验证。

通常最好避免逐步选择方法,特别是对于 2000 个变量。

log(y)如果数据是泊松的,这不是一个好主意,因为您将采用零日志。当然你可以使用log(y+1),但由于glmnet支持泊松分布,除非存在计算限制,否则这似乎没有必要。