何时清理数据?

数据挖掘 数据清理
2022-03-08 22:34:50

我对数据科学/机器学习非常陌生,我有一个我认为非常基本的问题——何时“清理”数据?

  • 在使用数据训练分类器(我的实验中的二元分类器)之前,我是否要清理数据?
  • 我是否清理我尝试使用此分类器分类的数据?
  • 两个都?

我的数据只是一系列推文。

3个回答

在大多数情况下,数据清理或数据清理是指将数据从它们收集后存在的原始形式转换为另一种格式的过程,目的是使其更适合他们未来的过程,例如训练模型等。 .

这个过程发生在整个过程的开始以及模型的训练和验证之前。在文本挖掘问题中,您还必须处理标点符号,删除停用词(这取决于您将选择的数据表示,对于 unigrams 很好,但对于 bigrams 则完全不推荐)并且还进行词干提取或词形还原过程。

您可能希望在训练分类器之前清理数据。为了让您对 ML 有一个粗略和抽象的看法,请将您的分类器视为一个巨大的数学矩阵。

您想使用分类器为您提供有关您拥有的数据的信息。但为了做到这一点,您需要将数据清理、解析甚至编码为 ML 能够理解的格式,并且您可以从数据中获得最多的知识。

我想不出你想用分类器清理数据的任何情况。您可以使用降维,但这并不完全是数据清理。

希望这能回答你的问题

清洗通常在数据挖掘的预处理或数据准备阶段完成。

因此,您可能需要在训练或使用分类器之前进行清理。清洁算法应该与训练和应用分类器相同。

如果您将清理算法仅应用于训练和测试数据集之一,则预测准确度不一定比应用于这两个数据集时更差。当您的分类器不依赖于已清理的特征时,可能会出现这种情况。在这种情况下,您可能需要检查这些特征是否与分类相关。