这个问题假设一个连续的深度神经网络
给定一些特征 [X1, X2, ... Xn],我试图预测一些值 Y。
我可用的原始数据包含 featureX1和 feature X2。假设我知道基于两个特征Y的比率,即X1 / X2.
我是否应该添加一个新功能,在数学上定义为两个功能的比率?我无法找到任何开始描述这种必要性或警告的文献。
我本能地担心以下几点:
- 由于特征集中的重复信息,过度拟合和过度正则化的需要
- 特征数量呈指数增长,因为可能需要定义每个特征之间的比率
但是,我也认识到某些关系不可能由深度神经网络定义(即逻辑门、指数关系等),那么这种“关系定义”什么时候是必要的呢?例如,如果已知存在指数关系?