使用 X 预测以下数据的 Y

机器算法验证 数据可视化 预测模型
2022-04-14 12:53:10

我在我的数据集中观察到以下行为模式,我想知道如何探索是否可以使用 X 的值预测 Y。该图是值的 2D 直方图。

在此处输入图像描述

我之前曾探索过四分位回归来确定上限,但我想知道是否有任何其他方法可以应用,使我能够根据 X 值确定 Y 的范围。我假设像这样的异方差数据我需要应用转换,但我不确定这是否是正确的方法。

我可以将四分位数回归拟合到上限和下限,然后为预测的任何 Y 值提供估计值(有误差)吗?

编辑: 根据@whuber 和@jbowman 的一些建议,我包含了更多数据集的图形。8这些是按组(例如 1 - 8、9 - 16)划分的均值和标准偏差图,以及以 4 个间隔通过数据的切片直方图。

在此处输入图像描述

通过数据的切片直方图使用 400 的 binwidth。例如,对于,我包括了高于或低于 2001000的所有值,因此切片的范围为X800 - 1200

在此处输入图像描述

2个回答

这真是一个图文并茂的评论。

完全不清楚这种关系异方差的。这可能在很大程度上是由于观察次数减少,较大的x. 以这个模拟为例:

二维密度图

这个内核密度图显示了 20,000 个 iid 从(X,Y)在哪里X有个B(1,5)分配,Y具有对数正态分布(几何平均值 =log(0.2), 几何 SD =0.45), 和XY 是独立的。 以下是其边际密度的直方图:

边际密度图

异方差的出现完全是由于稀缺性(X,Y)较大的值X. 这种外观由于偏斜而被进一步夸大了Y.

这表明,首先,您对数据进行一些垂直切片,例如在两端附近(低X和高X) 和中间,并将分布拟合到Y在这些切片中找到的值。是否有证据表明这些分布确实不同如果是这样,它们有何不同?例如,它们是否具有相似的形状,具有不同的第一和第二时刻?如果它们的形状看起来显着不同,它们是否至少通过三参数族(位置、比例和形状)内的分布来近似?这将建议适当的后续分析(可能包括对Y值)。

如果您只是对模拟上述关系的平均值感兴趣,那么解决异方差的解决方案应该不复杂(尽管我有可能完全误解了我在这里所说的)。

OLS 估计量不会因异方差而产生偏差,因此您只需担心标准误差,即有关统计显着性的问题。您可以使用异方差稳健标准误差估计。这些比正常的更保守,但是根据您的数据量,我猜您仍然有非常重要的结果。

从您提供的“均值与均值”图中,我猜想正确的规范可能是对数模型y ~ log(x)左右。然后,您可以使用具有稳健标准误差的 OLS 来估计这一点。

如果你想对边界等进行建模,事情会变得更加复杂,这在很大程度上取决于你想用它做什么。