以时间序列为变量的二元分类模型

数据挖掘 神经网络 分类 r 时间序列
2022-02-16 05:29:52

这大概是一个简单的问题。假设我对使用各种协变量(包括时间序列观察值)对二元变量建模感兴趣。在通常的建模方法中,可以尝试从时间序列数据中搜索各种特征,例如标准差、平均值、最大值等,以制作平面模型矩阵。

我的问题:允许(相对)简单地将时间序列数据包含到分类问题中的工具/方法是什么?

我不认为面板回归会起作用,因为时间序列数据在各行之间非常不同,有时非常稀疏和异步。由于结构的原因,融化数据显然也行不通。描述性统计是最简单的方法,但应该有别的方法吗?

我在使用神经网络方面没有经验,但也许有一种 NN 方法可以在时间序列数据中找到有意义的结构?

我还在考虑根据它们的相似性对不同的时间序列进行聚类并检查其重要性,但同样,对于时间序列的不同长度/稀疏性是否有鲁棒性?

1个回答

我认为您的其中一个陈述只是对数据结构和分析的关系的误解。当你说“由于结构的原因,融化数据显然也行不通”。您似乎没有理解正确融合数据需要构建一个补充协变量,该协变量将对值的“列位置”进行编码。在纵向数据中,这个位置(在数据的“宽”版本中)将成为“长”格式的“时间”变量。回归和神经网络方法可以处理这种格式。

我打算将我的评论仅作为改进搜索策略的建议,因为您没有详细描述任务或输入。因此,我正在“回答”一些链接,这些链接是由搜索策略的几种变体产生的,这些链接如下("binary outcome" OR "signal detection" OR classification) AND ("logistic regression" OR "neural networks") AND longitudinal AND missing

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5401893/

http://www.stats.ox.ac.uk/~snijders/WrightLondon2009.pdf

http://www.drizopoulos.com/pdf/Slides/jsm_2015.pdf

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3834930/

https://dl.acm.org/citation.cfm?id=3167596

https://mlhc17mit.github.io/slides/lecture7.pdf

https://www.cs.cmu.edu/~epxing/Class/10708-17/project-reports/project8.pdf

https://arxiv.org/pdf/1802.04664.pdf