数据挖掘 - 添加阈值以查看两个变量是否相关是否有任何逻辑？ - 吾爱随笔录 - 问答

添加阈值以查看两个变量是否相关是否有任何逻辑？

数据挖掘数据挖掘预测建模相关性

2022-02-13 06:24:54

我有两个变量和的元组给出，我想看看这两个变量之间是否存在关系。我可以通过找到相关系数来做到这一点。 $X$ $Y$ $(x, y)$

但是，我发现通过选择数据的任意子集（例如），我可以获得更高的相关系数和更强的结果。这样做在数学上合理吗？简单地说，我没有先验理由相信某些数据点比其他数据点“更重要”。 $(x, y) | x > k$

2个回答

不，这不是声音。你在做数据挖掘。

试试这个思想实验。假设您生成随机点（没有实际关系）。然后计算所有点的相关系数；的所有点的相关系数；的所有点的相关系数。实际上，后两个值之一将大于所有点的相关系数。因此，如果您选择一个阈值，您将始终处于可以增加相关系数的位置。即使这些点是随机生成的，也是如此。 $x>k$ $x<k$

因此，您的程序引入了偏见。

这类似于 p-hacking 的问题。

我认为您的相关系数可能会受到样本量的影响。您可能会发现以下参考资料很有用：

相关性在多大的样本量下稳定？
样本量和变异性对相关系数的影响。
stats.stackexchange 中的这篇文章也展示了二次抽样对相关系数的影响。

其它你可能感兴趣的问题

上一篇Mixture Density Network：确定每个高斯分量的参数下一篇选择分类特征的最佳实践