我试图将年龄(6-90 岁)与声音响度(以 dB 为单位)联系起来。但是,我的数据不包含 20-50 年范围内的任何数据点。
对于如此大的差距,哪种相关性度量最合适,为什么?到目前为止,我一直在使用 Kendall Tau。
请注意,我们在这里处理的不是双峰分布的数据,而是年龄范围内大量缺失的数据差距。
我试图将年龄(6-90 岁)与声音响度(以 dB 为单位)联系起来。但是,我的数据不包含 20-50 年范围内的任何数据点。
对于如此大的差距,哪种相关性度量最合适,为什么?到目前为止,我一直在使用 Kendall Tau。
请注意,我们在这里处理的不是双峰分布的数据,而是年龄范围内大量缺失的数据差距。
创建散点图以检查假设单个相关系数足以描述变量之间的关联是否有意义。
例如,在这些(模拟)数据中,6-20 岁的相关性为 90%,50 岁以上的相关性为 -70%,总体而言为 15%。在这种情况下,报告一个单一的相关系数就像报告家庭宠物的平均腿数是四,而一半的宠物是鱼,另一半是蜘蛛一样具有欺骗性……
如何表达相关性的选择是次要问题,取决于数据集的其他方面。