在线学习中的正则化和特征扩展?

机器算法验证 机器学习 正常化 正则化 在线算法
2022-02-01 13:39:47

假设我有一个逻辑回归分类器。在正常的批量学习中,我会有一个正则化项来防止过度拟合并保持我的权重很小。我还将规范化和扩展我的功能。

在在线学习环境中,我获得了连续的数据流。我对每个示例进行梯度下降更新,然后将其丢弃。我应该在在线学习中使用特征缩放和正则化术语吗?如果是,我该怎么做?例如,我没有一组可扩展的训练数据。我也没有验证集来调整我的正则化参数。如果没有,为什么不呢?

在我的在线学习中,我不断得到一连串的例子。对于每个新示例,我都会进行预测。然后在下一个时间步,我得到实际目标并进行梯度下降更新。

3个回答

开源项目vowpal wabbit包括在线 SGD 的实现,通过动态(在线)计算影响权重更新的 3 个附加因素来增强该实现。这些因素可以通过它们各自的命令行选项启用/禁用(默认情况下所有三个都打开,该--sgd选项将它们全部关闭,即:回退到“经典”SGD)。

3 个 SGD 增强选项是:

  • --normalized根据每个功能的规模调整更新
  • --adaptive使用自适应梯度 (AdaGrad) (Duchi, Hazan, Singer)
  • --invariant重要性感知更新(Karampatziakis,Langford)

他们共同确保在线学习过程对以下方面进行 3 向自动补偿/调整:

  • 每个特征缩放(大值与小值)
  • 基于特征重要性的每个特征学习率衰减
  • 示例中针对特征流行度/稀有度的每个特征自适应学习率调整

结果是无需对不同的特征进行预规范化或缩放,以使学习者的偏见更少且更有效。

此外,vowpal wabbit还使用正则化选项通过截断梯度下降实现在线正则化:

  • --l1(L1-范数)
  • --l2(L2-范数)

我对多个数据集的这些增强的经验是,当它们中的每一个被引入代码时,它们显着提高了模型的准确性和更平滑的收敛。

以下是一些与这些增强功能相关的更多详细信息的学术论文:

本文描述了一种在线正则化技术,它们适用于各种算法,包括逻辑回归:http ://ai.stanford.edu/~chuongdo/papers/proximal.pdf

是的,你当然需要正则化......它也有助于梯度下降(并将学习率初始化为 1/C)

参见例如 SGD-QN 论文http://leon.bottou.org/papers bottou 的论文

您还没有真正解释在线学习的含义:例如,对于每个点,您是否获得目标值?我不知道您将如何合并...搜索C ...我想您将拥有多个具有不同正则化术语的分类器并跟踪预测误差(在更新权重之前)