用于道路交通数据应用的数据科学学习资源?

数据挖掘 自习
2022-02-17 09:08:56

我的背景

我是土木工程专业的研究生。对于道路交通数据(作为时间序列的车辆轨迹)的分析,我主要使用大约一百万个数据点或更多的大数据集。
当 MS Excel 无法打开大数据文件时,我开始使用 R 语言。使用基本的统计知识和 R 代码,我开发了一些算法来识别数据中的某些模式,这些模式适用于许多应用程序。但我仍然缺乏 R 语言的编程技能。
现在,我熟悉基本的推理统计和 R 包(plyr、dplyr、ggplot2 等)。最近我了解到机器学习算法还有助于通过监督/非监督学习来定义数据中的模式,并且它们的应用可能会提高使用交通数据预测驾驶员某些“行为”的准确性。

问题

拥有统计学和 R 的基本知识,我想作为初学者学习数据科学/机器学习。我知道统计中的一些概念。和 ML 重叠,这可能会弥补我学习 ML 的差距。牢记我的背景,您会推荐我哪些资源(书籍/在线课程)开始学习数据科学并将其应用于我的领域?

1个回答

学习数据科学的最好方法是通过解决问题。我建议你前往 Kaggle 并解决知识问题。

为了在机器学习问题上有一个良好的开端,请熟悉 R 中的树包。这将帮助您了解决策树的工作原理,并以此为基础,了解随机森林、梯度增强机器和其他基于树的复杂算法的工作原理。

然后是支持向量机和深度学习模型。

要了解无监督学习问题,请学习 k-means 并将其用于聚类。

其他要理解的一般概念/想法是:

  1. 交叉验证

  2. 过拟合,正则化

  3. 偏差-方差权衡

  4. 降维/变量选择

  5. 泛化错误

  6. 集成学习

对于书籍,对于任何熟悉统计学并想进入机器学习的人来说,最常见的推荐是Hastie、Tibshirani 和 Friedman 的“统计学习的要素” 。