我最近参加了一篇博士论文答辩,其中一位委员会成员声称“手动特征提取已经过时。如今,我们有 [深度] 机器学习模型自动为我们完成这项工作。”
这个说法是真的吗?如果是,请提供证明此主张的参考资料。
编辑:显然,根据数据类型,似乎有不同的答案。因此,请让我知道任何可以单独证实您对图像、时间序列等的主张的参考资料。
我最近参加了一篇博士论文答辩,其中一位委员会成员声称“手动特征提取已经过时。如今,我们有 [深度] 机器学习模型自动为我们完成这项工作。”
这个说法是真的吗?如果是,请提供证明此主张的参考资料。
编辑:显然,根据数据类型,似乎有不同的答案。因此,请让我知道任何可以单独证实您对图像、时间序列等的主张的参考资料。
在一般情况下,这绝不是真的。让我们分解不同数据场景的案例:
然而,我认为深度学习适用领域(即大量可用数据)的趋势是尝试设计端到端训练的系统,并尽可能少地进行临时处理。然而,很多时候这是通过以归纳偏差的形式将专家知识注入网络来实现的。
不,手动特征提取并不过时。 此外,手动特征提取很难取消,因为数据科学家需要业务和领域逻辑来构建强大的模型来复制和捕获数据中的趋势和模式。然而,也有例外,例如图像数据。
取决于,如果它的图像数据,是的,陈述是真的。有许多深度学习技术,例如自动提取特征的CNN 。但是,如果您的数据是结构,即标准表格格式,则需要使用p_value、相关分析、chi-test 和 feature_selection 模型(如 PCA 和降维)来选择特征。
以下是特征提取技术的列表(即手动特征提取技术,需要人工干预;这些不是深度学习提取技术,尽管是自动化的。):
以下是深度学习特征提取技术的列表:
DL 方法的主要优势之一是它们可以从原始数据中工作,并且通常比具有精心设计的特征的传统方法表现得更好。因此,将传统的特征工程视为过时确实非常诱人,因为它需要更多的工作并且通常会导致性能下降。
但是,在以这种方式丢弃特征工程之前应该小心:
对此的不同观点是看看(在某些领域)究竟是什么取代了特征工程,这通常不仅仅是让神经网络学会从你的特定任务数据中提取特征,而且通常涉及从大量有些相似的数据,可以为不同的任务标记或根本没有标记。
一般来说,所有的模型都需要好的特性;然而,在某些数据领域——例如,物体和人脸的照片,以及自然语言文本分析——你可以从大量非任务特定数据源中获得的特征(例如使用一个好的 ImageNet 模型来处理照片,或者文本的良好上下文词嵌入)非常好,并且包含您可能包含在手动特征提取中的大部分内容。
所以论点是,如果针对您的特定问题可以应用这种迁移学习方法,那么这是强制性的(因为您可以“导入”的知识超过了您可以实际做的任何事情来增加您的小型任务特定数据集),但手动特征工程很有用,但可选。它可能会有所帮助并带来一些改进,但不会那么多。如果在“pre-NN”方法中,特征工程之前的结果很糟糕,并且您需要做大量的特征工作才能获得好的结果,那么现在只需选择第一个合理的最佳实践数据表示即可让您获得最佳效果结果可能。您需要确保不会犯重大错误,这些错误要么丢弃重要数据,要么包含不切实际的信号因素(例如“从图像中检测皮肤癌”)在大多数领域中,在特征工程方面的大量努力只会带来微小但熟练的努力,以确保数据表示是合理的。