分类数据的惩罚方法:组合因子中的水平

机器算法验证 分类数据 套索 弹性网 对数线性 多类
2022-03-10 22:49:12

惩罚模型可用于估计参数数量等于甚至大于样本量的模型。这种情况可能出现在分类或计数数据的大型稀疏表的对数线性模型中。在这些设置中,通常还需要或有助于通过组合一个因素的水平来折叠表格,其中这些水平在它们与其他因素的交互方式方面是不可区分的。两个问题:

  1. 有没有办法使用惩罚模型(例如 LASSO 或弹性网络)来测试每个因素内水平的可折叠性?
  2. 如果第一个问题的答案是肯定的,那么是否可以并且应该以这样一种方式进行设置,即水平的崩溃和模型系数的估计在一个步骤中发生?
1个回答

有可能的。我们可以使用融合套索的变体来完成此操作。

我们可以使用估算器

β^=argminβ1ni=1n(yiβTxieβTxi)+factors gλg(jg|βj|+12j,kg|βjβk|).

注意是对数线性的损失函数楷模。1ni=1n(yiβTxieβTxi)

这鼓励组内的系数相等。这种系数相等等效于将因子的级折叠在一起。的情况下,相当于将层与参考层折叠。调整参数可以被视为常量,但如果只有几个因素,最好将它们分开处理。jthkthβ^j=0jthλg

估计器是凸函数的最小化器,因此可以通过任意求解器有效地计算。如果一个因素有很多很多级别,这些成对的差异可能会失控——在这种情况下,了解更多关于可能崩溃模式的结构是必要的。

请注意,这一切都是一步完成的!这就是套索类型估算器如此酷的部分原因!


另一个有趣的方法是使用 OSCAR 估计器,除了惩罚被替换为[11][βiβj]1[βiβj]