我对机器学习还很陌生,所以想知道是否有人可以帮助检查我的想法或为我指明正确的方向!
我需要创建一个分类器,该分类器可以根据该人的属性+包含每个人的活动数据的多个时间序列来预测该人的结果。
经过大量研究,我得出结论,最好的方法是减少每个时间序列的维数,并选择使用符号聚合近似 (SAX) 为每个人的每个时间序列生成符号编码(例如“abfaadda” )。
这意味着我的分类器的输入将如下所示,其中每个案例都是一个人:
- 性别
- 民族
- 年龄
- ...
- 时间序列 1 SAX 编码
- 时间序列 2 SAX 编码
- ...
- 类属性
SAX 方法为时间序列的编码表示定义了一个距离度量,可用于跨多个案例对时间序列进行聚类或对时间序列进行分类。
我遇到的问题是我有多个编码时间序列作为分类器的输入。分类器需要考虑每个编码时间序列的相似性,而不是仅仅在编码字符串上进行拆分。它还需要考虑其他属性。
我想出的解决方案是对每个 SAX 编码的时间序列进行聚类,然后手动标记每个聚类(例如低活动、高活动)。然后将标记的集群用作分类器的输入,即
- 性别
- 民族
- 年龄
- ...
- 时间序列 1 集群(例如低活动)
- 时间序列 2 集群(例如高活动)
- ...
- 类属性
这是一种合理的方法还是有更好的方法?