连续数据与计数数据的相关性

机器算法验证 相关性 计数数据
2022-03-17 08:21:03

假设我们正在处理这个数据集,其中是连续变量(例如指数),的离散分布(例如泊松)假设之间的相关性有人如何定义(Xi,Ni)XiNii=1,...,nρXNρ

1个回答

我想说至少有 3 个不错的选择对你来说是有意义的:

  1. 多序列相关- 这将是 3 个选项中最奇特的,涉及用于构建离散变量()的潜在连续变量的近似值以及最可能的的最大似然估计过程当被视为二元正态样本时(R:polycor中的示例实现) ,可能会在该潜在连续变量和真实变量之间产生。有几个关于这个想法的参考资料,但这是 1974 年关于该主题的原始出版物:Estimation of the Correlation Between a Continuous and a Discrete VariableNiρXi
  2. Nonparametric Correlation - Spearman 等级相关系数在这种情况下可能是一个不错的选择。Spearman 的 Rho 的计算基于每个变量的值的等级而不是值本身,这使得它更广泛地适用于存在非线性关系或混合数据类型的情况。
  3. 建模- 我知道您在评论中提到您没有尝试进行任何类型的建模,但我仍然认为来自两个变量之间的良好拟合函数关系的一两个参数估计比您会发现任何相关系数(除非离散变量真的是从二元正态分布值的一半创建的——我对此表示怀疑)。

为了更直接地回答您的问题,像往常一样计算(假设您的意思是乘积矩相关系数)可能具有您所期望的属性,或者至少随着变量之间的线性相关性增长它会变得更大. 但是,相关性显着性的统计检验将无效,因为此类检验所需的假设之一是双变量正态性,如果其中一个变量是离散的,这显然是不正确的。ρ

不过,使用非参数相关系数(例如 Spearman 的)进行显着性测试是可能的,并且很容易找到任何语言中记录良好的实现。