在我们训练模型之前对数据 完成的每个过程(例如数据采集、拆分数据以进行验证、数据清理或特征工程)是否总是称为预处理部分?还是有一些流程没有包括在内?
如何定义机器学习中的“预处理”?
人工智能
机器学习
定义
数据预处理
数据科学
数据挖掘
2021-10-23 07:28:20
1个回答
数据预处理包括所有用于为机器学习算法或模型生成最终数据集(具有适当的大小、结构和格式)的技术。数据采集不应该是数据预处理的一部分,而是它之前的步骤,它收集原始数据(例如可能是嘈杂的)。
Salvador García 等人的《数据挖掘中的数据预处理》 (2014 年)一书很好地概述了数据预处理技术及其与数据挖掘和机器学习算法和模型的联系,将数据预处理定义如下。
数据预处理包括数据准备,以及数据的整合、清洗、规范化和转换;和数据缩减任务;例如特征选择、实例选择、离散化等。经过可靠的数据预处理任务链接后预期的结果是最终数据集,可以认为是正确的,对进一步的数据挖掘算法有用。
从第 10 页开始,对主要数据预处理技术进行了描述和分类。我将仅列出它们,因此请参阅本书以了解每种技术的定义和解释。
- 数据准备
- 数据清洗
- 数据转换
- 数据集成
- 数据规范化
- 缺失数据插补
- 噪声识别
- 数据缩减
- 特征选择
- 实例选择
- 离散化
- 特征提取/实例生成
这里有两个截图(来自引用的书),说明了一些数据准备
和数据缩减技术。
其它你可能感兴趣的问题