我正在使用线性回归来预测使用大量(~200)二元指标变量的连续变量。我有大约 2,500 个数据行。这里有几个问题:
- 当我进行单变量回归时,大多数指标与因变量有显着关联(根据设计——我收集了我认为与因变量相关的数据)
- 一些指标的发生率非常低(约 1% 或更少)(但我试图将这些变量排除在分析之外)
- 一些指标同时出现
我正在寻找一个稳定、简约的模型。我一直在使用 AIC 或 BIC 选择。我知道这可能会令人不悦,但我对此很满意,主要是因为我只是在输入我希望有一些关联的变量。由于 IDV(自变量)共现,我不想使用标准 Enter 回归。
不幸的是,如果我使用从原始数据集中随机抽取的案例构建一个新数据集,并重新调整我的 BIC 模型,我发现在 20 个这样的循环之后,每个单独的 BIC 模型保留的大部分术语都不会在所有 20 个模型中保留。我想我应该使用某种正则化回归——比如岭(因为它能够处理 IDV 相关性)、套索(因为它能够将参数设置为 0)或弹性网(结合这些优势)。我的理解是,这类似于使用比逐步 AIC 或 BIC 更软的阈值标准,可以产生更多可重复的结果。我以前从未使用过这些技术,但在做了一些研究之后,我
我的主要问题:我实际上对解释我的模型比使用它进行预测更感兴趣。我读过选择用于解释的调整参数比预测更难,但没有找到更多信息。有人可以指出我正确的方向吗?如果有人好奇,我正在使用 R。
第二个问题: R 为套索模型中的模型提供(我猜是 Wald)显着性估计。我相信他们吗?我可以在紧要关头解释它们吗?
我有工程背景,所以如果可能的话,我特别喜欢参考答案(网络资源很好),只要提供解释/直觉,数学是受欢迎的。
谢谢!