添加阈值以查看两个变量是否相关是否有任何逻辑?

数据挖掘 数据挖掘 预测建模 相关性
2022-02-13 06:24:54

我有两个变量的元组给出,我想看看这两个变量之间是否存在关系。我可以通过找到相关系数来做到这一点。XY(x,y)

但是,我发现通过选择数据的任意子集(例如),我可以获得更高的相关系数和更强的结果。这样做在数学上合理吗?简单地说,我没有先验理由相信某些数据点比其他数据点“更重要”。(x,y)|x>k

2个回答

不,这不是声音。你在做数据挖掘。

试试这个思想实验。假设您生成随机点(没有实际关系)。然后计算所有点的相关系数;的所有点的相关系数的所有点的相关系数实际上,后两个值之一将大于所有点的相关系数。因此,如果您选择一个阈值,您将始终处于可以增加相关系数的位置。即使这些点是随机生成的,也是如此。x>kx<k

因此,您的程序引入了偏见。

这类似于 p-hacking 的问题。

我认为您的相关系数可能会受到样本量的影响。您可能会发现以下参考资料很有用: