是否有一些标准程序(例如可以引用它作为参考)从具有最强相关性(仅两个维度)的较大池中选择数据点的子集?
例如,假设您有 100 个数据点。您需要 40 个点的子集,在 X 和 Y 维度上具有最强的相关性。
我意识到为此编写代码会相对简单,但我想知道是否有任何来源可以引用它?
是否有一些标准程序(例如可以引用它作为参考)从具有最强相关性(仅两个维度)的较大池中选择数据点的子集?
例如,假设您有 100 个数据点。您需要 40 个点的子集,在 X 和 Y 维度上具有最强的相关性。
我意识到为此编写代码会相对简单,但我想知道是否有任何来源可以引用它?
我会说你的方法符合这篇维基百科文章中描述的一般类别,如果你需要的不仅仅是维基百科,它还有其他参考资料。该文章中的一些链接也适用。
其他可能适用的术语(如果您想进行更多搜索)包括“数据挖掘”和“折磨数据直到它承认”。
请注意,如果您只选择不具有相同 x 或 y 值的 2 个点,则始终可以获得 1 的相关性。几年前,Chance 杂志上有一篇文章表明,当您有一个基本上没有相关性的 x 和 y 变量时,您可以找到一种方法来对 x 进行分箱并对分箱内的 y 进行平均,以显示增加或减少的趋势( Chance 2006,视觉启示:通过不幸的结果分类发现不存在的东西:孟德尔效应,第 49-52 页)。此外,对于显示中等正相关的完整数据集,可以选择显示负相关的子集。考虑到这些,即使你有正当的理由去做你提议的事情,你也会给任何怀疑者很多论据来反对你得出的任何结论。
RANSAC 算法听起来像你想要的。基本上,它假设您的数据由内点和异常值的混合组成,并尝试通过重复采样数据子集、对其拟合模型、然后尝试将所有其他数据点拟合到模型来识别内点。这是关于它的维基百科文章。
在您的情况下,您可以继续重复该算法,同时保存适合至少 40 个点的当前最佳模型,因此它不能保证您获得绝对最佳相关性,但它应该接近。
我很难想象这会是一种好的做法,但让我们暂时假设您确实有充分的理由这样做。
蛮力算法可能是这样的:
您可以从 N 的整体样本中计算出所有可能的 n 子样本。大多数统计软件包都具有计算组合的功能,无需替换即可为您执行此操作。
您估计每个子样本的 x 和 y 之间的相关性,并从该集合中选择最大值。
我刚刚看到原始海报关于此过程参考的评论。我不确定是否有人对此过程有一个特定的名称,毕竟您只是在数据集中生成所有可能相关性的经验分布并选择最大值。进行引导时使用类似的方法,但在这种情况下,您对经验可变性感兴趣,您不要使用它们来选择与最大值相关的特定子样本。