处理异常值和 z 分数

数据挖掘 数据挖掘 数据集 数据 离群值
2022-02-19 09:35:13

我是数据科学的新手,有一些琐碎的问题,我认为这对我理解基本的数据科学技术至关重要。

我正在构建一个函数来计算世界各国的社会福利分数/排名。这样做时,我遇到了多个异常值,这些异常值基本上扭曲了结果。

我有几个问题:

  1. 使用哪个归一化函数以及何时使用?我目前正在使用 z 分数。
  2. 如果我遇到异常值并且我知道异常值的原因并希望避免它影响结果,我应该如何修改值?例如。替换为均值/中值。我应该使用哪种技术以及何时使用?
  3. 计算 z 分数后,如何设计 z 分数的函数?它是基于反复试验还是我可以应用一些技术来找到最佳结果。由于我没有期望的严格结果,如何计算 z 分数的系数和运算?
2个回答

只是一些快速修复。规范化处理跨列的数据规模。例如,如果一个数据列在 1000 秒范围内,而另一列在 10 秒范围内,则标准化将起作用。

但是,如果您想处理偏度,一种方法是简单地获取log数据。它会引入异常值。因为对于正值,log 增加非常缓慢。在标准化之前执行(在您的情况下为 Z 分数) 在此处输入图像描述

其他方法正在获取数据的第 n 个根。

使用哪个归一化函数以及何时使用?

标准化(统计)

我应该使用哪种异常值技术以及何时使用?

如何处理异常值?

如何设计 z 分数的函数?

我无法给出任何具体的答案,但我的策略是尝试找到与这些功能有意义的关系。然后我会尝试突出这些与统计数据的关系。