我对逻辑回归中的模型选择和模型性能有疑问。我有三个基于三个不同假设的模型。前两个模型(命名为 z 和 x)在每个模型中只有一个解释变量,第三个模型(命名为 w)更复杂。我使用 AIC 为 w 模型选择变量,然后使用 AIC 来比较三个模型中哪一个最能解释因变量。我发现 w 模型的 AIC 最低,现在想对该模型进行一些性能统计,以了解模型的预测能力。因为我所知道的是这个模型比其他两个更好,但不是有多好。
由于我已经使用所有数据来学习模型(能够比较所有三个模型),我该如何处理模型性能?从我收集到的信息来看,我不能只对使用 AIC 从模型选择中获得的最终模型进行 k 折交叉验证,而是需要从一开始就包含所有解释变量,这是否正确?我认为这是我使用 AIC 选择的最终模型,我想知道它的性能如何,但确实意识到我已经对所有数据进行了训练,因此该模型可能存在偏差。因此,如果我应该从所有折叠中的所有解释变量开始,我将得到一些折叠的不同最终模型,我是否可以从提供最佳预测能力的折叠中选择模型并将其应用于完整数据集进行比较AIC 与其他两个模型(z 和 x)?或者它是如何工作的?
我的问题的第二部分是关于过度参数化的基本问题。我有 156 个数据点,52 个是 1,其余的是 0。对于 w 模型,我有 14 个解释变量可供选择,我意识到由于过度参数化,我不能包括所有解释变量,我读过你应该只使用观察最少的因变量组的 10%对我来说只有 5 个。我正在尝试回答生态学中的一个问题,是否可以选择我认为仅基于生态学最好地解释依赖的起始变量?或者我如何选择起始解释变量?完全排除某些变量感觉不对。
所以我真的有三个问题:
- 在使用交叉验证的完整数据集训练的模型上测试性能是否可以?
- 如果不是,我在做交叉验证时如何选择最终模型?
- 如何选择起始变量以便过度参数化?
对不起我的混乱问题和我的无知。我知道有人问过类似的问题,但仍然感到有些困惑。感谢任何想法和建议。