处理无数据

数据挖掘 数据挖掘 预测建模 缺失数据
2022-02-19 20:25:11

我正在从事预测性维护并从资产中获取温度数据。在几个月或几天内,资产仍然下跌,我们没有得到温度值。在这种情况下,我无法使用缺失值技术填充数据。也不能给出一些数字,因为即使 0 和 -1 也是温度的有效值。如何处理这样的数据?

我正在考虑为这些列设置非常大的价值,这是不可能的温度。请建议。

3个回答

从您的问题来看,您似乎很容易识别出资产因维护而停机的时期,并且只是想知道如何在数据中最好地对其进行编码?

如果是这种情况,我只需添加一个新的信息列,将每个时期的资产标记为 1 - 活动或 0 - 下降。如果需要,您甚至可以将其编码为活动/关闭/维护等。

这将是您的预测模型的额外有价值的数据(也许资产在维护期后或多或少可能会下降)。此外,它还允许您简单地将传感器数据标记为缺失 NA,因为您将能够将损坏的传感器和维护中的资产与其他数据区分开来。

正如@Tasty213 建议的那样,任何好的分类算法也可能能够做到这一点,但似乎您只需自己添加这些数据。

我建议你首先好好看看你目前可用的数据,然后看看它在各种标准数据插补方法中的样子。

其次,温度是唯一的特征吗?如果是这样,您几乎肯定需要更多功能才能获得一个好的模型。

最后,有些算法具有合法的温度值不应将其丢弃。您可以使用 KNN 分类器将分类为“无维护”和“维护”。仅在禁用单元时出现的所有 -1 温度值将聚集在一起,以便轻松识别特殊情况。

欢迎来到本站!我将通过向您提出另一个问题来开始回答您:这是一个问题吗?

大多数数据科学家通过传感器读数收集他们的数据并且通常在数据中游泳,大量数据可用。那么,您的数据中的两周差距真的那么重要吗?有些东西告诉我,即使您要完全删除这段时间,建模仍然可以。

那么,您是否确认您的手确实有问题?