纵向数据分析参考

数据挖掘 机器学习 r 时间序列 数据挖掘 逻辑回归
2022-03-01 14:14:26

所以我的目标是通过应用一些数据挖掘技术来研究纵向数据(时间序列数据)。最终,我希望能够“预测”结果。例如,对患者的年/月研究(重复测量)可用于使用逻辑回归、神经网络等预测某些疾病。

我正在使用 R。但是我很难找到关于这个主题的好的参考资料。我有数学背景,尽管我以前应用过一些数据挖掘技术,但我从未将这些技术应用于时间序列。

如果有人可以向我推荐一些好的理论参考资料或 R 中的动手示例,那将不胜感激。另外,如果您知道有关时间序列分析的相关文章,那也很棒。提前致谢。

3个回答

在数据科学中,人们通常将“纵向数据”称为一个或多个时间序列。因此,您可以尝试搜索。经典是使用 ARIMA(可用于包括 R 在内的多种语言)。就我个人而言,我也喜欢 Facebook 的 Prophet 库作为起点,因为它更易于使用且运行良好。也可在 R 中使用。

我一直在研究类似的问题,下面是我的方法。希望对您有所帮助:

  • 分类和分析您的时间序列问题。这将有助于缩小问题的范围和技术的选择。它可以根据包括但不限于以下因素来完成:

    1. 多变量对单变量?
    2. 回归还是分类?
    3. 输入(标签)、输出(特征)的大小?
    4. 示例总数?
  • 阅读用于分析/预测时间序列数据的不同统计技术,特别关注您在上一步中确定的因素可以解决哪些问题。一些技术是 ARIMA、Smoothing Average 等。
  • 如果您觉得性能可以进一步提高,请开始尝试经典机器学习模型。一些例子是逻辑回归、支持向量机、决策树、随机森林。你将不得不阅读每一个的优点和缺点。
  • 如果您仍然对性能不满意,您可以尝试使用深度学习和神经网络。最好阅读综合资源,例如在线深度学习课程等。

我找到的关于时间序列和序列的综合资源是:Deeplearning.ai 的 Coursera 时间序列课程

关于时间序列有很多很棒的资源,我在 R 中找到了非常方便的示例和动手示例。尽管如此,即使是普通的 python 用户,我自己也很容易发现下面提到的这些文章和博客,首先,时间序列分析在 R 中。我的建议是通过时间序列中的统计模型,如 ARMA、ARIMA 等,然后继续使用神经网络。

分析 VidhyaKaggle是一开始就值得关注的重要来源。

查看Kaggle 上 LANL 地震预测挑战中的内核,以对纵向数据进行更多分析