假设我正在构建一个神经网络来适应某种分类器。具体来说,让我们以使用房屋特征预测房价为例。
如果我的一个或两个特征包含的数字比其他特征多得多,或者甚至所有其他特征加起来都多,我该怎么办?例如,假设我有一些住房特征:平方英尺大小、年龄、所在地区的收入中位数。这是3个数字。然后我有另一个特征,房子每平方英尺的屋顶高度(当然,对于这个例子来说有点做作),我实际上会有“以平方英尺为单位的大小”——这个特征的数字。所以现在我的特征向量看起来像这样:
X = [1500 平方英尺,34 年,54,000 美元,10 英尺,10.1 英尺,10.3 英尺...这里还有 1497 个数字...]
似乎如果我只是天真地将其放入神经网络中,那么前 3 个特征基本上会被忽略,因为它们只占 3/1503 个特征。但它们实际上可能很重要。一种尝试可能是简单地对所有元素的“屋顶高度”特征进行平均,以获得“屋顶的平均高度”特征。这个例子是有道理的,但如果有时我不想取这个平均值怎么办?如果我遇到这样的问题,是否有任何行业惯例可以尝试?