我有两个变量和的元组给出,我想看看这两个变量之间是否存在关系。我可以通过找到相关系数来做到这一点。
但是,我发现通过选择数据的任意子集(例如),我可以获得更高的相关系数和更强的结果。这样做在数学上合理吗?简单地说,我没有先验理由相信某些数据点比其他数据点“更重要”。
我有两个变量和的元组给出,我想看看这两个变量之间是否存在关系。我可以通过找到相关系数来做到这一点。
但是,我发现通过选择数据的任意子集(例如),我可以获得更高的相关系数和更强的结果。这样做在数学上合理吗?简单地说,我没有先验理由相信某些数据点比其他数据点“更重要”。
不,这不是声音。你在做数据挖掘。
试试这个思想实验。假设您生成随机点(没有实际关系)。然后计算所有点的相关系数;的所有点的相关系数;的所有点的相关系数。实际上,后两个值之一将大于所有点的相关系数。因此,如果您选择一个阈值,您将始终处于可以增加相关系数的位置。即使这些点是随机生成的,也是如此。
因此,您的程序引入了偏见。
这类似于 p-hacking 的问题。
我认为您的相关系数可能会受到样本量的影响。您可能会发现以下参考资料很有用: