我有一个数字变量(价格),它在训练和测试数据集中都有长尾。我发现,如果你在训练和测试数据集中为这个变量删除最高 1% 的值,那么在训练和测试数据集中这个变量的直方图看起来几乎一样。见下图。
我的问题是:我仍然需要使用训练数据(具有特征和标签)对测试数据(仅具有特征)进行预测。在这种情况下,我应该如何处理这个特征变量?我正在考虑删除训练和测试数据集中前 1% 的数据,但由于我仍然需要对这 1% 的测试数据进行预测,所以我猜这不是一个好主意。在这个例子中,由于这个变量在训练和测试数据集中的经验分布在去除“异常值”之前和之后看起来是一样的,我们应该让这个变量保持不变吗?另外,一般来说,在将特征放入机器学习算法之前,我们应该如何处理异常值?