庞大的数据集,如何进行?

数据挖掘 数据集 数据
2022-03-14 08:29:04

所以我开始了我的硕士论文,我收到了一个包含 2000 行和近 600 列数据的时间序列数据集。我之前处理过时间序列,但与这种复杂程度没有任何相似之处。时间序列中的许多课程只处理单变量时间序列,现在我应该研究一个包含 600 个不同因子的时间序列,这些因子具有极端负载的 nan 值,并以简单和说明性的方式呈现。绘制单个单变量时间序列是没有意义的,因为还有 600 个其他时间序列需要考虑。我只是想知道这里是否有人对如何进行有任何提示?任何输入将不胜感激。

2个回答

你没有提供很多关于你想要做什么的细节,所以我会说一些基本的事情......希望这会有所帮助:

  1. 检查并清理数据:如果您的列主要包含 NaN 值,则它们可能无用,因此您可以丢弃它们。您还可以放弃任何始终包含相同值的功能。
  2. 检查特征之间的相关性:您可能有一些彼此冗余的特征,删除那些不太可能提供信息的特征。
  3. 首先使用一个小子集(行),对其进行分析并使用该子集实现管道。不时检查您的管道是否可以处理完整的数据集,但对于大多数开发来说,一个子集可能就足够了。如果可能,请使用几个不同的子集来涵盖更多案例。

不用说,保留原始数据的备份;)

您是否仅限于使用 R 或 Python?如果您有选择,请尝试使用 Alteryx。它是一个基于 GUI 的工具,极大地帮助了我探索和分析大量数据。该工具基于 R 构建,因此插入 R 函数也很容易。