数据挖掘 - 处理异常值和 z 分数 - 吾爱随笔录 - 问答

处理异常值和 z 分数

数据挖掘数据挖掘数据集数据离群值

2022-02-19 09:35:13

我是数据科学的新手，有一些琐碎的问题，我认为这对我理解基本的数据科学技术至关重要。

我正在构建一个函数来计算世界各国的社会福利分数/排名。这样做时，我遇到了多个异常值，这些异常值基本上扭曲了结果。

我有几个问题：

使用哪个归一化函数以及何时使用？我目前正在使用 z 分数。
如果我遇到异常值并且我知道异常值的原因并希望避免它影响结果，我应该如何修改值？例如。替换为均值/中值。我应该使用哪种技术以及何时使用？
计算 z 分数后，如何设计 z 分数的函数？它是基于反复试验还是我可以应用一些技术来找到最佳结果。由于我没有期望的严格结果，如何计算 z 分数的系数和运算？

2个回答

只是一些快速修复。规范化处理跨列的数据规模。例如，如果一个数据列在 1000 秒范围内，而另一列在 10 秒范围内，则标准化将起作用。

但是，如果您想处理偏度，一种方法是简单地获取log数据。它会引入异常值。因为对于正值，log 增加非常缓慢。在标准化之前执行（在您的情况下为 Z 分数）

其他方法正在获取数据的第 n 个根。

使用哪个归一化函数以及何时使用？

标准化（统计）

我应该使用哪种异常值技术以及何时使用？

如何处理异常值？

如何设计 z 分数的函数？

我无法给出任何具体的答案，但我的策略是尝试找到与这些功能有意义的关系。然后我会尝试突出这些与统计数据的关系。

其它你可能感兴趣的问题

上一篇使用分类数据进行多维缩放下一篇ARIMA(X) 验证