假设我们有连续的数据. 假设是之间的 Karl-Pearson 相关系数'沙的。对于什么范围的值, 我们真的可以确定两者之间可能确实存在线性关系吗?'沙' 并继续预测通过使用线性回归?
我确信关于这个问题的主题应该是一个经过充分研究的主题。我在这里做了一点搜索;找不到相关帖子。非常感谢对上述问题的任何答案或对此类研究的指示。
假设我们有连续的数据. 假设是之间的 Karl-Pearson 相关系数'沙的。对于什么范围的值, 我们真的可以确定两者之间可能确实存在线性关系吗?'沙' 并继续预测通过使用线性回归?
我确信关于这个问题的主题应该是一个经过充分研究的主题。我在这里做了一点搜索;找不到相关帖子。非常感谢对上述问题的任何答案或对此类研究的指示。
对于 rx,y 的值范围,我们可以 [...] 继续使用线性回归来预测 Y?
如果关系确实是线性的,那么任何相关值都可以起作用;线性回归在整个相关范围内(包括 0)表现得应有尽有。您甚至不需要事先检查相关性(它似乎没有任何用途,但通常的回归计算尚未涵盖)。
但是,这是一个很大的如果。您可以获得任何相关性(除了恰好 1 或 -1)并且没有线性;大(幅度)相关并不一定意味着关系实际上是线性的(也不意味着它不是线性的);相关性本身并不是确定线性回归模型适用性的有用方法。
在多元回归的情况下,检查双变量相关性甚至更成问题,因为边际双变量相关性可能与您在多元回归模型中得到的完全不同。(例如,参见关于辛普森悖论和遗漏变量偏差的维基百科文章。)
但是,如果您对回归是否在预测方面做有用的事情感兴趣,我们需要准确地确定“有用”的意图。在某些情况下,这可能归因于相关值。
另一方面,如果您要问“我们如何对 Pearson 相关性进行假设检验?” 您可能应该编辑问题以使其明确。在适当的假设下,您可以在包装中轻松获得“标准”测试 - 或者相当容易地手动执行。[但是,您不仅限于这些特定假设,还可以进行 Pearson 相关性的其他检验——包括非参数检验。]
有充分证据的效果和强烈的效果是有区别的。例如,有充分的证据表明吃培根会致癌,但风险很低;并且有微弱的证据表明吸食大麻叶会导致癌症,但风险可能很高。(造成差距的原因是培根食用者比吸食大麻的人受到更多的医疗监督。)
因此,对相关性是否得到充分证明的有用统计检验不是基于相关系数,而是基于样本量。
情况的另一个重要特征是相关性解释了多少变化:这是 R 平方统计量,即决定系数。
您可以使用以下测试来检查之间是否存在显着相关性和. 假设您有观察结果.
原假设和备择假设由下式给出:
因此,如果 null 被拒绝.