我有一个问题,我想将机器学习(监督分类)应用到,但是,数据是连续的,并且数据向量中的每一行都有自己的长度。这意味着每行中的特征数量是非恒定的(想想时间序列数据 - 例如 - 逐日数据)。所以这意味着数据的顺序是有意义的,我们不能例如用零填充以使所有行都具有相同的长度,因为这会引入虚假信号,这会使我的分类器感到困惑。至少这是我目前的看法。
一种可能的方法是使用例如窗口函数并简单地计算(每天)运行的事物总和。但这意味着我正在丢失有关历史的信息,因为每一天都必须在矩阵中表示为自己的行,以使所有行都有固定数量的列,因此我可以应用经典的 ML 算法。我想避免这种情况,因为我认为这是一种次优的方法 - 但我会听取任何反对我意见的论点。
我在神经网络方面没有太多经验,但我相信有些架构支持非固定长度的序列数据,例如 RNN?有没有人有我可以考虑的好的链接/资源?
我欢迎从业者就如何处理这个建模问题提出想法和建议。谢谢!
问候,米