我目前正在研究惩罚回归的渐近特性。到目前为止,我已经阅读了无数的论文,但是有一个我无法理解的基本问题。
为简单起见,我将研究 的最小化, 以获得一些合理的惩罚函数(和对数似然)。在关于所得估计量的渐近性质的定理中,通常对的行为的上限和下限(例如和 for . 这是 Fan en Li (SCAD)、Zou (Adaptive Lasso) 和其他一些人的论文中出现的要求。
我的问题是,它从未指定如何施加这样的界限。在实践中,您有一个数据集并尝试为调整参数找到最佳可能值,但当然在这种情况下,样本大小不会改变,而且绝对不会接近无穷大。
我的猜测是,这意味着您为选择最佳值的方法(例如交叉验证、AIC 或 BIC 或类似)应该是限制行为是必需的,但没有人证明这一点,或者至少我没有能够找到它。
所以,简而言之:你们中的任何人都可以向我解释如何处理的这些要求,或者指向我的论文/书籍/.../建议一个模拟实验/任何使这些问题变得清晰的东西。我希望在超出最大似然的设置中证明类似的渐近特性,但是我需要充分了解最先进的技术。
编辑:
阅读,重新阅读和重新阅读一些论文,我终于意识到渐近属性(我感兴趣:一致的模型选择以及扩展的预言属性)可能不需要调整参数选择来支持参数本身的限制行为。这些定理通常表明,任何系列都将产生具有感兴趣属性的估计量。
因此,我只需要选择,并且“实际上承诺”如果我要在更大/更小的数据集上重新进行分析,我会相应地缩放该。
如果这是正确的,这只会给我留下关于交叉验证的经典问题:在这里,模型的有效性是在(例如)9/10 的数据上评估的。即使我以正确的方式缩放,有什么保证我使用的任何标准都可以随之缩放?对于其他选择调整参数的方法,这似乎不是问题。任何人都可以对此有所了解(我仍在努力理解@Stefan Wager 的评论,所以也许它已经在那里了)?