我有两个嵌套的逻辑回归模型,A 和 B。A 嵌套在 B 下。假设 B 有比 A 有更多的特征。B 比 A 具有更高的对数似然性。但是 B 的改进的似然性是因为特征很容易过拟合数据。如果我在我的案例中应用似然比检验,则表明更复杂的模型 B 有显着改进。所以我认为在这种情况下似然比检验是有缺陷的。
- 我们如何确定添加的特征是否会导致过拟合问题?
- 似然比检验是否总是返回正确答案?
我有两个嵌套的逻辑回归模型,A 和 B。A 嵌套在 B 下。假设 B 有比 A 有更多的特征。B 比 A 具有更高的对数似然性。但是 B 的改进的似然性是因为特征很容易过拟合数据。如果我在我的案例中应用似然比检验,则表明更复杂的模型 B 有显着改进。所以我认为在这种情况下似然比检验是有缺陷的。
你的推理太悲观了。
鉴于附加特征,LR 检验统计量将遵循渐近分布与如果null为真(以及其他辅助假设,例如,合适的回归设置、弱依赖假设等),即如果只是导致“过度拟合”的噪声特征。
下图绘制了 0.95% 的分位数作为函数的分布,即 LR 统计量需要超过的值才能拒绝是“好”的模型。
如您所见,您的集合越大,需要的检验统计量值就越高这“过度拟合”了数据。因此,该测试适当地使较大模型的(不可避免的)更好的拟合(或对数似然)更难被判断为“足够”大以拒绝模型.
当然,对于任何给定的测试应用程序,您可能会得到非常“好”的虚假过度拟合,以至于您仍然错误地拒绝空值。然而,这种“I 型”错误在任何统计测试中都是固有的,如果(如图所示)我们使用测试的零分布的 95% 分位数,大约 5% 的情况下会出现零为真的情况作为我们的关键价值观。
我们如何确定添加的特征是否会导致过拟合问题?
这取决于您打算将模型用于什么目的。
我们如何确定添加的特征是否会导致过拟合问题?似然比检验是否总是返回正确答案?
根据@ChristophHanck 的回答,总是有可能犯I 类错误。但是您可以通过将显着性水平设置得足够低来控制错误率,例如 5% 或 1%。
我认为您正在寻找诸如 AIC 或 BIC 之类的信息标准之一,它们会因添加参数而受到惩罚。
https://en.wikipedia.org/wiki/Akaike_information_criterion对它们都有一些讨论。
请注意,您应该只使用相同的软件对它们进行比较,因为它们仅定义为一个附加常数,因此您无法将使用 R 计算的一个与使用 Stata 计算的一个进行比较。