假设您有一个二元分类问题,以及一个包含 20,000 个观测值和 20 列的数据集。目标变量非常不平衡,存在缺失值、偏态分布、异常值等。
我的问题是,在一般意义上,这些数据预处理步骤应该按什么顺序执行?
填写缺失值、标准化/标准化数据、处理偏度、处理异常值、平衡目标变量类
假设您有一个二元分类问题,以及一个包含 20,000 个观测值和 20 列的数据集。目标变量非常不平衡,存在缺失值、偏态分布、异常值等。
我的问题是,在一般意义上,这些数据预处理步骤应该按什么顺序执行?
填写缺失值、标准化/标准化数据、处理偏度、处理异常值、平衡目标变量类
您问的是一个复杂的问题,这取决于您要查找的内容。
如果有缺失值,它们是否在与您要查找的结果相关的列中?如果不是,则根本不需要填写,因此顺序无关紧要。话虽如此,如果缺少值的列与您想要的结果相关,那么在进一步分析之前填充缺失的数据集通常是谨慎的。
同样,需要针对您要确定的内容来处理异常值。在许多情况下,异常值的存在可以突出显示结果本身。这可能无法回答您的问题,而是让您质疑数据本身的准确性,或者让您决定包括或排除它们。
您需要更具体地确定您要确定的内容。然后按照与您相关的顺序处理每个预处理步骤。这在许多不同的情况下都会发生变化,因此很难给出明确的答案。
kaggle 上解决泰坦尼克号数据科学解决方案的教程为解决此类问题提供了一种很好的方法,并强化了有时重新组织工作流任务的概念。
工作流程阶段
竞赛解决方案工作流程经历了数据科学解决方案书中描述的七个阶段。
- 问题或问题定义。
- 获取训练和测试数据。
- 争吵,准备,清理数据。
- 分析、识别模式并探索数据。
- 建模、预测和解决问题。
- 可视化、报告和呈现问题解决步骤和最终解决方案。
- 提供或提交结果。
工作流指示每个阶段如何跟随其他阶段的一般顺序。但是,也有例外的用例。
- 我们可以结合多个工作流程阶段。我们可以通过可视化数据进行分析。
- 比指示的更早执行一个阶段。我们可能会在争论前后分析数据。
- 在我们的工作流程中多次执行一个阶段。可视化阶段可以多次使用。
- 完全放弃一个阶段。我们可能不需要供应阶段来生产或服务使我们的数据集进行竞争。