我还是数据挖掘的新手,但我真的很想(并且需要)学习它。我知道在我可以在像 WEKA 这样的软件中实际处理我的数据之前,我需要进行一些过滤,比如清理数据、集成、转换等,以真正从任何类型的重复、缺失值、噪声等中清除数据。但我只在理论上知道所有这些。
我现在遇到的问题是我有一组非常大的数据,在进入处理部分之前我需要先过滤这些数据。但我不知道从哪里开始。仅供参考,我的数据集非常大,通常的电子表格程序(如 Ms Excel、Libre Office、WPS 等)无法打开它。我必须使用 Linux 终端和命令来计算行数、列数等。
在预处理开始时我该怎么做?如何“清理”我的数据?我一直在考虑使用 Linux 命令来完成所有这些工作,但我也想知道真正的数据科学家如何清理他们的数据。他们是手动完成这些,还是已经有某种软件来帮助他们?因为说真的,我不知道从哪里开始或从哪里开始。我在互联网上找到的每一个参考资料都只是理论上的解释。我需要一些更实用的东西来帮助我理解。
我该如何处理我的数据集?请帮忙?