如果深度神经网络被认为是通用函数逼近器,那么基扩展真的有必要吗?或者这会是针对具体情况的吗?例如,如果一个人有三个定量 X 变量,那么通过引入交互作用、多项式等来扩展变量数量是否有任何优势?这似乎在例如 RF 和 SVM 中具有很好的实用性,但我不确定这是否是神经网络的好策略。
如果这可能太宽泛或太模糊,有人可以指出一些有关深度网络背景下的基础扩展和特征工程的相关信息吗?
如果深度神经网络被认为是通用函数逼近器,那么基扩展真的有必要吗?或者这会是针对具体情况的吗?例如,如果一个人有三个定量 X 变量,那么通过引入交互作用、多项式等来扩展变量数量是否有任何优势?这似乎在例如 RF 和 SVM 中具有很好的实用性,但我不确定这是否是神经网络的好策略。
如果这可能太宽泛或太模糊,有人可以指出一些有关深度网络背景下的基础扩展和特征工程的相关信息吗?
深度神经网络的思想是它可以自动为我们做特征工程。(请参阅深度学习书的第一章。)我强烈建议您阅读第一章。
进行基础扩展并不是真正必要且不常用的。请记住,深度网络通常将原始特征作为输入,对于具有(至少)数千像素的图像,在馈送到神经网络之前也无法有效地进行基础扩展(例如高阶多项式扩展)网络。
事实上,深度神经网络中有一些操作可以看作是基扩展。
卷积层可以看作是在傅里叶基展开中做特征工程。看我的问题:卷积神经网络背后的直觉是什么?
ReLU 可以看作是进行分段线性拟合(样条基础)。
许多深度学习模型在训练期间从原始输入数据中学习自己的特征(例如,用于图像的 2D 卷积神经网络)。因此,在许多情况下,您甚至不必担心将变量显式传递给您的模型。在其他一些情况下,您仍然需要特征,但只需要核心特征(例如,NLP 中的单词)。这些特征被表示为嵌入空间中的向量,该向量捕获相似性(例如,“总统”接近“奥巴马”)。嵌入空间要么来自无监督的预训练(word2vec、glove),要么随机初始化,向量在训练期间通过反向传播进行调整。网络的架构负责学习特征组合,比如“不错,相当好”和“不好”之间的区别,
Goldberg, Y. (2015)第 3 节的“特征组合”段落。自然语言处理的神经网络模型入门。人工智能研究杂志,57,345-420。很好地解释了这一点(我真的建议阅读整个第 3 节,非常好):
组合特征在线性模型中至关重要,因为它们为输入引入了更多维度,将其转换为数据点更接近线性可分的空间。另一方面,可能组合的空间非常大,特征设计者不得不花费大量时间来想出一组有效的特征组合。非线性神经网络模型的承诺之一是只需要定义核心特征。由网络结构定义的分类器的非线性预计将负责寻找指示性特征组合,从而减轻对特征组合工程的需求。