我有一个大约 50 列的数据框。这些列是分类数据或连续数据。连续数据可以在 0.000001-1.00000 之间,也可以在 500,000-5,000,000 之间。分类数据通常是名称,例如商店名称。
如何规范化这些数据,以便将其输入序列模型的密集层?
Y 值为 0 或 1,因此这是一个二元分类问题。我目前正在将所有连续数据规范化为 0-1 并对所有分类数据进行一次热编码,这样如果我有一个包含 5 个名称的列,我将得到一个包含 5 列的矩阵,其中填充了 0 和1的。然后,我加入所有连续和分类数据,并将其输入到具有 和 的 Dense 层init='uniform'
中activation='relu'
。
这是做事的标准方式吗?