关于 Hadley Wickham 关于整洁数据的论文

数据挖掘 r 数据清理
2022-03-01 20:44:57

我读了这篇论文并且非常理解它,但是我错过了如果我们不修复论文中介绍的 5 种类型的混乱数据(第 5 页)将会产生的负面影响,或者甚至不修复它们将使分析更容易。任何人都可以为此举出例子吗?

1个回答

总的想法是标准化数据的格式,以便可以在各种分析和预测方法中一致地使用它。

对所有 5 种混乱数据的负面影响是相同的:人们将花费更多时间来实现功能,这些功能只不过是从一种非常特定的格式转换为另一种格式。此外,通过这些繁琐的转换,更有可能在数据中引入错误或遗漏。

基本上遵循“整洁的数据理念”可以节省大量时间,并使您的数据易于使用更广泛的方法。