可以通过 P(X) 的非独立同分布样本和 P(Y|X) 的独立同分布样本的随机梯度下降来训练 P(Y|X) 的模型吗?

机器算法验证 机器学习 条件概率 强化学习 梯度下降
2022-03-09 01:05:08

在某些数据集上通过随机梯度下降训练参数化模型(例如最大化似然性)时,通常假设训练样本是从训练数据分布中抽取的。因此,如果目标是对联合分布进行建模,则每个训练样本都应从该分布中抽取。P(X,Y)(xi,yi)

如果目标是对条件分布进行建模,那么 iid 要求会如何变化(如果有的话)?P(Y|X)

  1. 我们还必须从联合分布中抽取每个样本(xi,yi)
  2. 中绘制 iid ,然后中绘制 iid吗?xiP(X)yiP(Y|X)
  3. 我们可以而不是 iid (例如,随着时间的推移相关),然后 iid吗?xiP(X)yiP(Y|X)

你能评论这三种随机梯度下降方法的有效性吗?(或者在必要时帮我改写问题。)

如果可能的话,我想做#3。我的应用是强化学习,我使用参数化条件模型作为控制策略。状态序列是高度相关的,但动作是从以状态为条件的随机策略中采样的。结果样本(或它们的子集)用于训练策略。(换句话说,想象一下在某个环境中长时间运行控制策略,收集状态/动作样本的数据集。然后,即使状态随时间相关,动作也是独立生成的,以状态为条件。)这与本文的情况有些相似xiyi(xi,yi)

我发现了一篇论文,Ryabko,2006,“条件独立数据的模式识别”,起初看起来很相关;但是,情况与我需要的相反,其中(标签/类别/动作)可以从绘制而不是 iid ,而(对象/模式/状态)是从yiP(Y)xiP(X|Y)

更新: Ryabko 论文中提到的两篇论文(此处此处)似乎与此处相关。他们假设来自任意进程(例如,不是 iid,可能是非平稳的)。他们表明,在这种情况下,最近邻和核估计量是一致的。但我更感兴趣的是基于随机梯度下降的估计在这种情况下是否有效。xi

1个回答

我认为您可以执行 2 或 3。但是 3 的问题在于,在允许 X 的任意分布时,您包含的分布将所有或几乎所有概率集中在 x 空间中的一个小区间。这会损害对 P(Y|X) 的总体估计,因为对于 X 的某些值,您几乎没有数据或没有数据。