我试图寻找一个很好的论据,说明为什么在机器学习中使用曼哈顿距离而不是欧几里得距离。
到目前为止,我发现的最接近好的论点的是麻省理工学院的讲座。
在 36:15,您可以在幻灯片上看到以下声明:
“通常使用欧几里得度量;如果不同的维度不可比,曼哈顿可能是合适的。 ”
不久之后,教授说,因为爬行动物的腿数在 0 到 4 之间变化(而其他特征是二元的,只是从 0 到 1 变化),“腿数”特征最终会有很多如果使用欧几里得距离,则权重更高。果然,这确实是对的。但是如果使用曼哈顿距离也会有这个问题(只是这个问题会稍微缓解,因为我们不像欧几里得距离那样对差异进行平方)。
解决上述问题的更好方法是将“腿数”特征标准化,使其值始终介于 0 和 1 之间。
因此,既然有更好的方法来解决这个问题,感觉在这种情况下使用曼哈顿距离的论点缺乏一个更有力的观点,至少在我看来是这样。
有谁真正知道为什么以及何时有人会在欧几里得上使用曼哈顿距离?谁能给我一个使用曼哈顿距离会产生更好结果的例子吗?