最近我正在研究一个包含约 300 个观察值和 1500 个预测变量的数据集。我使用glmnetR 中的包来拟合弹性网络模型,这给了我 99% 的交叉验证(正则化)R 方。主题专家建议数据可能包含影响/杠杆点,这会扭曲模型拟合。为了测试这一点,我在 80% 的子样本上重新拟合了我的模型,使用剩余的 20% 作为验证数据集。果然,我在验证数据上的 R 平方下降到了 10%。
在广泛的数据集中检测/处理异常值和利用点的建议策略是什么?杠杆和库克距离的标准定义涉及计算帽子矩阵;这对于正则化模型仍然有意义吗?
此外,是否有任何 R 包可以增强基本弹性网络算法以处理异常值和影响点?(我意识到对于一个 1500 维的问题,可能很难明智地做到这一点。)