我是数据科学的新手,有一些琐碎的问题,我认为这对我理解基本的数据科学技术至关重要。
我正在构建一个函数来计算世界各国的社会福利分数/排名。这样做时,我遇到了多个异常值,这些异常值基本上扭曲了结果。
我有几个问题:
- 使用哪个归一化函数以及何时使用?我目前正在使用 z 分数。
- 如果我遇到异常值并且我知道异常值的原因并希望避免它影响结果,我应该如何修改值?例如。替换为均值/中值。我应该使用哪种技术以及何时使用?
- 计算 z 分数后,如何设计 z 分数的函数?它是基于反复试验还是我可以应用一些技术来找到最佳结果。由于我没有期望的严格结果,如何计算 z 分数的系数和运算?
