为什么比率在统计建模中是“危险的”?
今天有朋友告诉我,在回归模型中使用两个变量的比值作为变量是不明智的,不如在同一个回归模型中使用这两个相同的变量作为变量。然而,当我问为什么会这样时,我没有得到答案。
我花了一些时间尝试阅读此内容并发现以下几点:
在概率的背景下,比率并不总是被定义。例如,柯西概率分布是两个正态分布的比率。柯西分布的均值未定义。
比率存在“虚假相关”的问题。例如,如果您从两个独立的正态分布中生成随机点 - 然后取每一对的比率:您会发现该比率可以显示统计相关性,即使数据来自独立和随机的正态分布。
比率有可能变成非常大的数字,并有被零除的风险。
假设,如果两个变量之间的比率图不是对角线(45 度)并且不通过原点 - 该比率是没有意义的(我不明白为什么)。
这些是我确定的关于为什么比率在统计建模中可能是“危险”的一些观点,并且使用比率中的分子和分母变量作为回归模型(或任何统计模型)的变量可能会更好 -但是,为什么在统计模型中使用比率可能被认为是危险的,还有其他主要原因吗?
谢谢!
参考:
- https://en.wikipedia.org/wiki/Cauchy_distribution
- https://en.wikipedia.org/wiki/Spurious_correlation_of_ratios
- https://pubmed.ncbi.nlm.nih.gov/28743689/
- https://journals.physiology.org/doi/pdf/10.1152/advan.00053.2013
- https://www.fs.fed.us/pnw/lwm/aem/docs/steel/2004_leirmann_et_al_ratio_paper_final_11_22_04.pdf
- https://www.law.nyu.edu/sites/default/files/The%20Ratio%20Problem.pdf
- https://media.terry.uga.edu/socrates/publications/2018/05/Ratios_in_Strategic_Management_in_press_1.pdf