在某些数据集上通过随机梯度下降训练参数化模型(例如最大化似然性)时,通常假设训练样本是从训练数据分布中抽取的。因此,如果目标是对联合分布进行建模,则每个训练样本都应从该分布中抽取。
如果目标是对条件分布进行建模,那么 iid 要求会如何变化(如果有的话)?
- 我们还必须从联合分布中抽取每个样本
- 中绘制 iid ,然后从中绘制 iid吗?
- 我们可以而不是 iid (例如,随着时间的推移相关),然后 iid吗?
你能评论这三种随机梯度下降方法的有效性吗?(或者在必要时帮我改写问题。)
如果可能的话,我想做#3。我的应用是强化学习,我使用参数化条件模型作为控制策略。状态序列是高度相关的,但动作是从以状态为条件的随机策略中采样的。结果样本(或它们的子集)用于训练策略。(换句话说,想象一下在某个环境中长时间运行控制策略,收集状态/动作样本的数据集。然后,即使状态随时间相关,动作也是独立生成的,以状态为条件。)这与本文的情况有些相似。
我发现了一篇论文,Ryabko,2006,“条件独立数据的模式识别”,起初看起来很相关;但是,情况与我需要的相反,其中(标签/类别/动作)可以从绘制而不是 iid ,而(对象/模式/状态)是从。
更新: Ryabko 论文中提到的两篇论文(此处和此处)似乎与此处相关。他们假设来自任意进程(例如,不是 iid,可能是非平稳的)。他们表明,在这种情况下,最近邻和核估计量是一致的。但我更感兴趣的是基于随机梯度下降的估计在这种情况下是否有效。