机器算法验证 - 标准化是否应该完全消除相关性？ - 吾爱随笔录

我有两个变量：排序和长度。前者衡量一个序列的顺序（即ABC的所有排列），前者是序列的长度（即ABC的长度为3）。这些是高度相关的，我想按长度标准化排序度量。我期待这种标准化能够完全消除相关性 - 但事实并非如此。怎么会这样？

id      order   length  order/length
X1      4           3   1.333333333
X33     2           1   2
X566    44          6   7.333333333
X681    4           2   2
X682    46          6   7.666666667
X80     2           1   2

correlation before normalization: 0.958
correlation AFTER normalization: 0.610

相关性已经降低，但变量仍然高度相关。我的野心是分出与“长度”分开的“顺序”部分，但我似乎没有在这里实现这一点。我怎样才能做到这一点？我的想法哪里出错了？

normalization <- function(order, length){ data <- as.data.frame(cbind(order, length)) model <- lm(order ~ length, data) order_normalized <- order-(model$coefficients[1]+(model$coefficients[2]*length)) (order_normalized) }