就我而言,统计/机器学习算法总是假设数据是独立且同分布的()。
我的问题是:当这个假设显然不满足时,我们能做什么?例如,假设我们有一个数据集,它对相同的观测值进行重复测量,因此横截面和时间维度都很重要(计量学家称之为面板数据集,或统计学家称之为纵向数据,即不同于时间序列)。
一个例子可能如下。2002 年,我们收集了纽约 1000 套房屋)。2005 年,我们在同一栋房屋上收集了相同的变量。类似的情况发生在 2009 年和 2012 年。假设我想了解和之间的关系。如果数据,我可以轻松拟合随机森林(或任何其他监督算法,重要的是),从而估计给定的条件期望。但是,我的数据中显然存在一些自相关。我该如何处理?