特征生成和特征提取有什么区别?

数据挖掘 机器学习 分类
2021-09-17 01:48:46

谁能告诉我特征生成的目的是什么?为什么在对图像进行分类之前需要丰富特征空间?这是必要的步骤吗?

有什么方法可以丰富特征空间?

1个回答

特征生成——这是获取原始、非结构化数据并定义特征(即变量)以在统计分析中潜在使用的过程。例如,在文本挖掘的情况下,您可以从包含数千条文本消息(例如 SMS、电子邮件、社交网络消息等)的原始日志开始,并通过使用一定大小删除低价值词(即停用词)来生成特征词块(即 n-gram)或应用其他规则。

特征提取——在生成特征之后,通常需要测试原始特征的转换并选择这个潜在原始特征和派生特征池的子集以用于您的模型(即特征提取和选择)。测试派生值是一个常见的步骤,因为数据可能包含与您的结果具有非线性模式或关系的重要信息,因此数据元素的重要性可能仅在其转换状态(例如高阶导数)中显而易见。使用过多的特征会导致多重共线性或以其他方式混淆统计模型,而提取最少数量的特征以满足分析目的则遵循简约原则。

以这种方式增强特征空间通常是图像或其他数据对象分类的必要步骤,因为原始特征空间通常充满大量非结构化和不相关的数据,这些数据包括范式中通常称为“噪声”的数据一个“信号”和“噪声”(也就是说,一些数据具有预测价值而其他数据没有)。通过增强特征空间,您可以更好地识别在分析中具有预测或其他价值的重要数据(即“信号”),同时消除混杂信息(即“噪声”)。