对整个数据集进行日志缩放

数据挖掘 r 数据集 预处理 数据分析
2022-03-05 14:05:12

我在对数基数 10 中对整个数据集进行对数缩放。当我这样做时,我得到 -infitity 的最小值。

我想知道如何摆脱这个-infinity?

有人建议我在日志中添加一个小值数字以摆脱这种情况,例如:

log10(dataset + 0.01)

这确实摆脱了 -infinity 但我不确定这是否会扭曲数据或者是错误的做法?

另外,如果这是正确的方法,是否有人对如何决定使用什么数字(例如 0.01、0.1 或 0.001)有任何提示?

1个回答

我建议看一下您所做的转换: 在此处输入图像描述

在获取日志之前,请考虑是否要将一个非常小的数字(例如 0.0000001)添加到零。可能不会,因为你会得到一个很大的负数。但是,一旦开始添加足够大的数字(例如 0.1),结果应该几乎没有差异。我建议尝试每一个并查看结果数据的密度图。调查哪个分布看起来最不偏斜并继续使用它。