我有一个包含 20000 个样本的数据集,每个样本有 12 个不同的特征。每个样本都属于 0 类或 1 类。我想训练一个神经网络和一个决策森林来对样本进行分类,以便我可以比较结果和两种技术。
我偶然发现的第一件事是数据的正确标准化。一项功能在范围内,另一个在并且有一个特征主要取值 8,有时取值为 7。因此,当我在不同的来源中阅读时,输入数据的正确归一化对于神经网络至关重要。正如我发现的那样,有很多可能的方法来规范化数据,例如:
- Min-Max Normalization:输入范围线性变换为区间(或者,有关系吗?)
- Z-Score Normalization:数据被转换为具有零均值和单位方差:
我应该选择哪种归一化?决策森林也需要标准化吗?通过 Z-Score 归一化,我的测试数据的不同特征不在同一范围内。这会是个问题吗?是否应该使用相同的算法对每个特征进行归一化,以便我决定对所有特征使用 Min-Max 或对所有特征使用 Z-Score?
是否存在数据映射到的组合并且均值为零(这意味着数据的非线性变换,因此输入数据的方差和其他特征发生变化)。
我感到有点失落,因为我找不到回答这些问题的参考资料。