以连续变量的时间序列为特征的事件预测

数据挖掘 预测建模 时间序列
2022-02-23 10:21:17

我们感觉设备在连续变量(风扇速度、温度、电压等)方面的行为会对发生的罕见事件(组件故障)产生影响。

我现在必须为此建立一个预测模型,以证明其影响。

这些连续的特征以时间序列的形式给出,并且事件是准时的。

我已经使用决策树、随机森林、adaboost 和聚类基于这些变量的描述性统计(参见这个问题)制作了一个模型,但它不起作用。我仍然会通过平衡课程来提高,但我相信这不是最好的方法。

我很确定这种预测有更好的算法(这是很常见的问题),但我什么也没找到。

你有想法吗?

非常感谢

PS:我正在使用 Python 和 cython

2个回答

首先,您将无法用模型证明任何事情,您将有误报/误报。通过一个好的模型,您可以显示哪些变量可能是组件故障的指标。

在此类问题中,特征生成可能对模型的准确性产生最重要的影响。时间戳可用于聚合。例如,您可以每小时汇总每台设备的指标。您可能为输入模型而创建的指标/功能可能是平均/最大温度或风扇速度、温度或风扇速度的变化率、设备高于某个阈值温度或风扇速度的秒数、电压峰值的布尔指示器等。您可以创建任意数量的功能。然后,您可以找到哪些特征不是强预测变量,并在需要时删除这些列以减少噪音。

您可以探索纵向和事件时间数据的联合建模。这里将为罕见事件建立生存模型,为纵向数据建立线性模型。