数据挖掘 - （手动）特征提取是否过时了？ - 吾爱随笔录

（手动）特征提取是否过时了？

数据挖掘深度学习特征提取

2021-09-21 07:57:04

我最近参加了一篇博士论文答辩，其中一位委员会成员声称“手动特征提取已经过时。如今，我们有 [深度] 机器学习模型自动为我们完成这项工作。”

这个说法是真的吗？如果是，请提供证明此主张的参考资料。

编辑：显然，根据数据类型，似乎有不同的答案。因此，请让我知道任何可以单独证实您对图像、时间序列等的主张的参考资料。

4个回答

在一般情况下，这绝不是真的。让我们分解不同数据场景的案例：

对于判别图像模型（例如图像分类/标记），这在某些场景中是正确的。您只需在数据中添加一些卷积网络（甚至是预训练模型），仅此而已。然而，convnets 本身受益于“专家知识”，即信息局部性很重要，分层信息处理也很重要。对于其他一些场景，应用领域知识（例如特定的数据转换）可能会在结果中达到所需的质量水平。
对于许多图像处理问题，神经网络在注入某种归纳偏差（例如注意力）时效果最佳。
对于自然语言处理 (NLP) 问题，如今需要大量的工艺，尤其是在数据预处理阶段。
对于“典型的数据科学”问题，进行特征提取也至关重要。您可以查看Kaggle比赛来验证这一点。
对于时间序列问题，依靠专家知识来了解基于数据性质最适合的模型也是正常的。

然而，我认为深度学习适用领域（即大量可用数据）的趋势是尝试设计端到端训练的系统，并尽可能少地进行临时处理。然而，很多时候这是通过以归纳偏差的形式将专家知识注入网络来实现的。

不，手动特征提取并不过时。 此外，手动特征提取很难取消，因为数据科学家需要业务和领域逻辑来构建强大的模型来复制和捕获数据中的趋势和模式。然而，也有例外，例如图像数据。

取决于，如果它的图像数据，是的，陈述是真的。有许多深度学习技术，例如自动提取特征的CNN 。但是，如果您的数据是结构，即标准表格格式，则需要使用p_value、相关分析、chi-test 和 feature_selection 模型（如 PCA 和降维）来选择特征。

以下是特征提取技术的列表（即手动特征提取技术，需要人工干预；这些不是深度学习提取技术，尽管是自动化的。）：

独立成分分析
等值图
内核 PCA
潜在语义分析
偏最小二乘
主成分分析
多因素降维
非线性降维
多线性主成分分析
多线性子空间学习
半定嵌入
自动编码器

以下是深度学习特征提取技术的列表：

卷积

DL 方法的主要优势之一是它们可以从原始数据中工作，并且通常比具有精心设计的特征的传统方法表现得更好。因此，将传统的特征工程视为过时确实非常诱人，因为它需要更多的工作并且通常会导致性能下降。

但是，在以这种方式丢弃特征工程之前应该小心：

首先，作为科学家，我们应该警惕技术趋势的动态性。例如，在 15 到 20 年前，很少有 ML 专家会押注神经网络作为下一件大事。我们应该盘点 ML 方法的演变，而不是盲目地采用最新技术。
DL 方法的计算成本很高，并且通常需要大量数据。仍然有很多应用程序/问题更适合更轻量级的传统方法。
DL 方法本质上不太愿意解释其结果。可解释性/可解释性已经是一个重要问题，并且随着 ML 的应用遇到现实生活中的问题可能变得更加重要：伦理问题（如果 ML 系统是种族主义者怎么办？）、法律问题（为什么 ML 系统会造成坏事）决定和谁负责？）。相比之下，一些统计方法，如决策树，对他们的决策提供了非常清晰的解释。
在某些情况下，将特征工程留给 DL 是次优的。有一些结果（据我所知在 NLP 中）表明，在某些特定问题上，精心设计的功能比 DL 表现更好。我不知道这些是重要的还是只是规则的例外。主观解释：可能存在“设计懒惰”的风险，即指望深度学习来完成工作，而不是正确理解和构建问题。

迁移学习

对此的不同观点是看看（在某些领域）究竟是什么取代了特征工程，这通常不仅仅是让神经网络学会从你的特定任务数据中提取特征，而且通常涉及从大量有些相似的数据，可以为不同的任务标记或根本没有标记。

一般来说，所有的模型都需要好的特性；然而，在某些数据领域——例如，物体和人脸的照片，以及自然语言文本分析——你可以从大量非任务特定数据源中获得的特征（例如使用一个好的 ImageNet 模型来处理照片，或者文本的良好上下文词嵌入）非常好，并且包含您可能包含在手动特征提取中的大部分内容。

所以论点是，如果针对您的特定问题可以应用这种迁移学习方法，那么这是强制性的（因为您可以“导入”的知识超过了您可以实际做的任何事情来增加您的小型任务特定数据集），但手动特征工程很有用，但可选。它可能会有所帮助并带来一些改进，但不会那么多。如果在“pre-NN”方法中，特征工程之前的结果很糟糕，并且您需要做大量的特征工作才能获得好的结果，那么现在只需选择第一个合理的最佳实践数据表示即可让您获得最佳效果结果可能。您需要确保不会犯重大错误，这些错误要么丢弃重要数据，要么包含不切实际的信号因素（例如“从图像中检测皮肤癌”）在大多数领域中，在特征工程方面的大量努力只会带来微小但熟练的努力，以确保数据表示是合理的。

其它你可能感兴趣的问题

上一篇我应该在哪个时期停止训练以避免过度拟合下一篇建议文本分类器训练数据集