所以我开始了我的硕士论文,我收到了一个包含 2000 行和近 600 列数据的时间序列数据集。我之前处理过时间序列,但与这种复杂程度没有任何相似之处。时间序列中的许多课程只处理单变量时间序列,现在我应该研究一个包含 600 个不同因子的时间序列,这些因子具有极端负载的 nan 值,并以简单和说明性的方式呈现。绘制单个单变量时间序列是没有意义的,因为还有 600 个其他时间序列需要考虑。我只是想知道这里是否有人对如何进行有任何提示?任何输入将不胜感激。
庞大的数据集,如何进行?
数据挖掘
数据集
数据
2022-03-14 08:29:04
2个回答
你没有提供很多关于你想要做什么的细节,所以我会说一些基本的事情......希望这会有所帮助:
- 检查并清理数据:如果您的列主要包含 NaN 值,则它们可能无用,因此您可以丢弃它们。您还可以放弃任何始终包含相同值的功能。
- 检查特征之间的相关性:您可能有一些彼此冗余的特征,删除那些不太可能提供信息的特征。
- 首先使用一个小子集(行),对其进行分析并使用该子集实现管道。不时检查您的管道是否可以处理完整的数据集,但对于大多数开发来说,一个子集可能就足够了。如果可能,请使用几个不同的子集来涵盖更多案例。
不用说,保留原始数据的备份;)
您是否仅限于使用 R 或 Python?如果您有选择,请尝试使用 Alteryx。它是一个基于 GUI 的工具,极大地帮助了我探索和分析大量数据。该工具基于 R 构建,因此插入 R 函数也很容易。