R 基本工作流程

数据挖掘 r 数据挖掘 数据清理
2022-02-20 19:05:04

我是 R 的新手,我的问题是我没有任何真实世界的经验。我的意思是,我学到了很多东西,但是当我有新的任务要处理时,我总是很挣扎。一般来说,我说的是,如何开始处理新任务。

有时数据集太大(令人惊讶:))以至于我无法获得有关它的全景图,并且通常使用的功能(例如str(), summarise(), head(),tail()可能sample_n来自包dplyr)不足以让我满意。

我在网上找到的几乎每个示例都是关于几乎完美的数据集。如果我们需要对数据进行清理,我们可以相对容易地识别出基本问题,因为这些问题是明确的,您可以在检查head()或其他内容时意识到它们。

真实世界的数据呢?如果列在数据集的中间移动,或者有些行的值包含不适当的符号或空格或其他内容(薪水、价格、电话号码等),该怎么办?

总而言之:-您熟悉数据集的一般方法是什么(假设我们已经知道变量的含义,因为我们有关于它的描述)?- 你有一般的检查方法吗?

我知道没有两个类似的项目,但我对您的基本工作流程(带有一些示例或解释)非常感兴趣。

3个回答

R 上有几个包可以为您提供有关数据框状态的完整报告。不仅是缺失的数量,还有列的类型、异常值的数量(如果是连续的)、沿类别的分布(如果是分类的),......

如果我必须选择其中一个,肯定有很大的帮助DataExplorer,试一试!一旦我对数据框架和我期望从“业务”方面获得的信息有所了解,我通常会将其与自己准备的一组检查结合起来。

这是 Hadley Wickham 最近对中型数据集进行探索性分析的精彩视频。它包含许多简单但聪明的技巧,并展示了诸如“先做一个案例,然后为所有实例做某事”的策略(这里:一个城市 -> 所有城市)

https://www.youtube.com/watch?v=go5Au01Jrvs

简要展示数据分析的“整体游戏”。在https://github.com/hadley/building-permits查看代码和数据

在有许多比赛正在进行的地方使用 Analytics vidya,我建议您解决仍然存在的问题(时间序列上的练习问题)。我希望你喜欢它。