数据挖掘 - 庞大的数据集，如何进行？ - 吾爱随笔录

庞大的数据集，如何进行？

数据挖掘数据集数据

2022-03-14 08:29:04

所以我开始了我的硕士论文，我收到了一个包含 2000 行和近 600 列数据的时间序列数据集。我之前处理过时间序列，但与这种复杂程度没有任何相似之处。时间序列中的许多课程只处理单变量时间序列，现在我应该研究一个包含 600 个不同因子的时间序列，这些因子具有极端负载的 nan 值，并以简单和说明性的方式呈现。绘制单个单变量时间序列是没有意义的，因为还有 600 个其他时间序列需要考虑。我只是想知道这里是否有人对如何进行有任何提示？任何输入将不胜感激。

2个回答

你没有提供很多关于你想要做什么的细节，所以我会说一些基本的事情......希望这会有所帮助：

检查并清理数据：如果您的列主要包含 NaN 值，则它们可能无用，因此您可以丢弃它们。您还可以放弃任何始终包含相同值的功能。
检查特征之间的相关性：您可能有一些彼此冗余的特征，删除那些不太可能提供信息的特征。
首先使用一个小子集（行），对其进行分析并使用该子集实现管道。不时检查您的管道是否可以处理完整的数据集，但对于大多数开发来说，一个子集可能就足够了。如果可能，请使用几个不同的子集来涵盖更多案例。

不用说，保留原始数据的备份；）

您是否仅限于使用 R 或 Python？如果您有选择，请尝试使用 Alteryx。它是一个基于 GUI 的工具，极大地帮助了我探索和分析大量数据。该工具基于 R 构建，因此插入 R 函数也很容易。

其它你可能感兴趣的问题

上一篇Keras方法model.compile中的参数“metrics”是什么意思？下一篇如何找到纯度高的“区域”