观察非独立同分布时的统计学习

机器算法验证 机器学习 非独立的 时变协变量 独立同居
2022-03-13 10:30:35

就我而言,统计/机器学习算法总是假设数据是独立且同分布的()。iid

我的问题是:当这个假设显然不满足时,我们能做什么?例如,假设我们有一个数据集,它对相同的观测值进行重复测量,因此横截面和时间维度都很重要(计量学家称之为面板数据集,或统计学家称之为纵向数据,即不同于时间序列)。

一个例子可能如下。2002 年,我们收集了纽约 1000 套房屋)。2005 年,我们在同一栋房屋上收集了相同的变量。类似的情况发生在 2009 年和 2012 年。假设我想了解之间的关系。如果数据,我可以轻松拟合随机森林(或任何其他监督算法,重要的是),从而估计给定的条件期望。但是,我的数据中显然存在一些自相关。我该如何处理?YXXYiidYX

3个回答

统计学习或机器学习的理论中没有要求样本是独立同分布的

当样本是 iid 时,可以将给定某个模型的样本的联合概率写为乘积,即使得对数似然为个体对数似然。这简化了计算,但绝不是要求。P({x})=ΠiPi(xi)

在您的情况下,您可以例如使用一些双变量分布 ,,然后从似然xi,yizi=(xi,yi)TziN(μ,Σ)ΣP({z})=ΠiP(zi|μ,Σ)

确实,许多开箱即用的算法实现都隐含地假设样本之间的独立性,因此您正确地确定将它们按原样应用于数据时会遇到问题。您将不得不修改算法或找到更适合您的情况的算法。

马尔可夫过程不仅是使用统计模型分析纵向数据的非常通用的方法,它们还适用于机器学习。它们之所以起作用,是因为通过以先前状态为条件的转换概率建模,记录是条件独立的,并且可以被视为来自不同的独立主体。可以使用离散或连续时间过程,离散更简单。主要工作来自后估计处理,将转换概率转换为无条件(在先前状态)状态占用概率,也就是当前状态概率。请参阅此文档和文档中的其他文档

这里已经有一些很好的答案,但我认为值得注意的是,这个问题的答案可能会根据iid假设的违反情况而发生巨大变化。例如,如果一个单变量数据集不是独立同分布的,而是平稳的,那么许多非常简单的估计过程,例如样本均值,仍然会收敛到适当的极限。

但是,如果因为数据是非平稳的而违反了独立同分布假设,那么生活就会困难得多。请注意,将数据集拆分为训练集、测试集、有时是验证集的非常常见的机器学习传统在存在非平稳性的情况下是无效的。如果这是您面临的困难,那么您最好的选择通常是尝试找到接近静止(或遍历性)的数据转换并使用它来代替。