如何处理数据集中的负整数值?

数据挖掘 数据集 数据清理
2022-02-10 06:11:54

假设我们有一个具有负整数值的字段数据集。那么我们是否可以考虑具有负值的字段以进行进一步的处理,或者我们是否需要忽略这些字段?如果我们可以考虑这些负值,那么请告诉我我们将如何处理它?

数据集是bank_data

2个回答

我假设您的意思是不在特征语义域中的负值,因此表示实际上并不表示负值的特殊情况。如果该假设是正确的,我建议您将该功能一分为二:

  1. 代表实际值的列 - 对于负值,这将是空白/空;
  2. 对附加(可能是分类)信息进行编码的列,以更好的方式由负数表示。对于那些具有实际值的数据点,这可能是空白的。

这将迫使您面对第二个问题:如何处理丢失的数据

负输入值没有问题,只要它是有意义的。正如 Ankit Saith 在评论中所说,温度可能是负数,金钱也是(正数是我赚的钱,负数是我失去的钱)等等。当然,像距离这样的输入不应该是负数!

此外,通常在深度学习中,您将数据集归一化为具有 0 均值和 1 标准的输入。然后您会在 0 附近获得“小”值,可以是正值或负值