我爱上了数据科学,我花了很多时间研究它。一个常见的数据科学工作流程似乎是:
- 框定问题
- 收集数据
- 清理数据
- 处理数据
- 报告结果
在处理数据时,我正在努力将这些点联系起来。我知道第 4 步是有趣的地方,但我不知道从哪里开始。处理数据时采取了哪些步骤?示例:我需要找到集中趋势还是标准差?需要机器学习吗?
Ps:我知道这些是广泛的问题,所以请在您自己的领域专业知识范围内回答。
我爱上了数据科学,我花了很多时间研究它。一个常见的数据科学工作流程似乎是:
在处理数据时,我正在努力将这些点联系起来。我知道第 4 步是有趣的地方,但我不知道从哪里开始。处理数据时采取了哪些步骤?示例:我需要找到集中趋势还是标准差?需要机器学习吗?
Ps:我知道这些是广泛的问题,所以请在您自己的领域专业知识范围内回答。
至于处理数据取决于一个人的教育、专业知识、目标和最喜欢的工具,我会在我的狭窄范围内回答它——并努力跟踪你。
界定问题是许多人忽视的重要起点。尽管这只是一个开始,但这应该会导致探索数据的第一个策略。
收集数据现在更容易了,因为这是先前任务所暗示的。但是,请在下图中对您的数据进行心理分类,以根据您的个人权衡了解从什么开始:
探索和清理数据:这里有不同程度的复杂性。我通常从清理数据的标准流程开始(缺失值的平均值/中值、需要时的归一化和居中,......)。同时,我开始通过获取值的直方图、时间序列的均值演变、文本的词频等来更深入地研究数据……这是特定于任务的,但在这里进行探索是为了给你关于数据的提示。一旦检查它们,您应该成熟您的清洁过程。
处理数据:正如你所说,有趣的部分来了。您可以选择自己喜欢的工具,或者通过寻找新概念(作为未来优秀的数据科学家)来提高您的技能,以处理您的数据。你不知道从什么开始的一个原因可能是你在前面的点上走得太快了——这意味着你必须做什么仍然不清楚。回到他们身边,把过程写在纸上,直到你清楚地确定你需要的输入和输出。同样,一般来说,它涉及以下内容:
报告结果。不像听起来那么容易,正如这里提到的。如果是为了你自己,拥有一个从头开始的整个项目,是一个很好的回报。此外,您可能会在测试模型时记住您的分数以及如何改进它(哪些超参数,哪个模型,......)。如果这是一个很好讨论的主题,您可以在知名数据集上与世界顶级团队进行比较。最后,如果它是针对雇主的,我建议在进入主题之前开始讨论 - 既费时又麻烦。
这是解决您遇到的问题的一个非常好的框架。在我看来,它有多个答案。我会给你一个与我有关的。
在清理数据之后,或者更确切地说,在清理数据的同时,我们必须清楚前面的任务和我们的结果。数据工作主要遵循以下步骤: