我经常构建一个模型(分类或回归),其中我有一些预测变量是序列,我一直在尝试找到技术建议,以尽可能最好的方式总结它们,以便将它们作为预测变量包含在模型中。
作为一个具体的例子,假设正在建立一个模型来预测客户是否会在接下来的 90 天内离开公司(t 和 t+90 之间的任何时间;因此是二元结果)。可用的预测变量之一是期间 t_0 到 t-1 的客户财务余额水平。也许这代表了前 12 个月的每月观察(即 12 次测量)。
我正在寻找构建本系列特征的方法。我使用每个客户系列的描述,例如均值、高、低、标准偏差,拟合 OLS 回归以获取趋势。他们还有其他计算特征的方法吗?其他变化或波动的衡量标准?
添加:
正如下面的回复中提到的,我还考虑过(但忘记在此处添加)使用动态时间规整 (DTW),然后对结果距离矩阵进行层次聚类 - 创建一些集群,然后使用集群成员作为特征。对测试数据进行评分可能必须遵循对新案例和集群质心进行 DTW 的过程 - 将新数据系列与其最接近的质心匹配......