您如何定义探索数据的步骤?

数据挖掘 机器学习 统计数据 可视化 数据争吵 方法
2022-02-24 13:09:44

我爱上了数据科学,我花了很多时间研究它。一个常见的数据科学工作流程似乎是:

  1. 框定问题
  2. 收集数据
  3. 清理数据
  4. 处理数据
  5. 报告结果

在处理数据时,我正在努力将这些点联系起来。我知道第 4 步是有趣的地方,但我不知道从哪里开始。处理数据时采取了哪些步骤?示例:我需要找到集中趋势还是标准差?需要机器学习吗?

Ps:我知道这些是广泛的问题,所以请在您自己的领域专业知识范围内回答。

2个回答

至于处理数据取决于一个人的教育、专业知识、目标和最喜欢的工具,我会在我的狭窄范围内回答它——并努力跟踪你。

  • 界定问题是许多人忽视的重要起点。尽管这只是一个开始,但这应该会导致探索数据的第一个策略。

    1. 将“我想做什么”翻译成“我需要哪些隐含信息来实现它”
    2. 给定您需要的信息,找到获取它的方法(通过将其分解为任务和子任务)以及提取它的相应数据(特定任务意味着特定信号:结构化数据、图片、电影、声音、文本...)
    3. 除了 1. 和 2.,您应该更清楚地了解您将处理的数据以及您可能使用的工具(NLP、图像处理、时间序列......)
  • 收集数据现在更容易了,因为这是先前任务所暗示的。但是,请在下图中对您的数据进行心理分类,以根据您的个人权衡了解从什么开始:在此处输入图像描述

    1. 直接数据是那些容易获得的数据。间接是那些需要一些预处理(抓取网站,裁剪图像,计算点击次数,......)
    2. 使用的简单性/复杂性取决于数据:一般来说,数组中的结构化数据更容易处理这些图像。
    3. 圆点的大小是您在处理这些数据时获得的奖励,与您的整个项目有关
  • 探索和清理数据:这里有不同程度的复杂性。我通常从清理数据的标准流程开始(缺失值的平均值/中值、需要时的归一化和居中,......)。同时,我开始通过获取值的直方图、时间序列的均值演变、文本的词频等来更深入地研究数据……这是特定于任务的,但在这里进行探索是为了给你关于数据的提示。一旦检查它们,您应该成熟您的清洁过程。

  • 处理数据:正如你所说,有趣的部分来了。您可以选择自己喜欢的工具,或者通过寻找新概念(作为未来优秀的数据科学家)来提高您的技能,以处理您的数据。你不知道从什么开始的一个原因可能是你在前面的点上走得太快了——这意味着你必须做什么仍然不清楚。回到他们身边,把过程写在纸上,直到你清楚地确定你需要的输入和输出。同样,一般来说,它涉及以下内容:

    1. 降维(尤其是图像)和特征设计(one-hot 编码器、浮点数或整数、序数或基数类别……)
    2. 通过调整超参数来选择您的估计器/模型
    3. 使用验证方法进行训练(交叉验证、留一法……)
    4. 测试和改进您的结果
  • 报告结果不像听起来那么容易,正如这里提到的。如果是为了你自己,拥有一个从头开始的整个项目,是一个很好的回报。此外,您可能会在测试模型时记住您的分数以及如何改进它(哪些超参数,哪个模型,......)。如果这是一个很好讨论的主题,您可以在知名数据集上与世界顶级团队进行比较。最后,如果它是针对雇主的,我建议在进入主题之前开始讨论 - 既费时又麻烦。

这是解决您遇到的问题的一个非常好的框架。在我看来,它有多个答案。我会给你一个与我有关的。

在清理数据之后,或者更确切地说,在清理数据的同时,我们必须清楚前面的任务和我们的结果。数据工作主要遵循以下步骤:

  1. 特征检测
  2. 使用上述特征进行训练(有很多机器学习/深度学习模型可以做到这一点),例如分类(这取决于任务)
  3. 如果需要,在验证测试中检查训练好的模型,然后在测试集上检查这些特征取决于数据集。标准偏差或寻找集中趋势并不总是一个标准。在大多数情况下,需要机器学习来训练数据集。