Keras:如何使用连续和分类数据规范化数据框?

数据挖掘 神经网络 深度学习 张量流 喀拉斯 西阿诺
2021-09-22 19:12:02

我有一个大约 50 列的数据框。这些列是分类数据或连续数据。连续数据可以在 0.000001-1.00000 之间,也可以在 500,000-5,000,000 之间。分类数据通常是名称,例如商店名称。

如何规范化这些数据,以便将其输入序列模型的密集层?

Y 值为 0 或 1,因此这是一个二元分类问题。我目前正在将所有连续数据规范化为 0-1 并对所有分类数据进行一次热编码,这样如果我有一个包含 5 个名称的列,我将得到一个包含 5 列的矩阵,其中填充了 0 和1的。然后,我加入所有连续和分类数据,并将其输入到具有 和 的 Dense 层init='uniform'activation='relu'

这是做事的标准方式吗?

1个回答

是的,确实如此,你做得很好!

在大多数情况下,分类特征(列)应该是 one-hot 编码的。但是,连续特征可能有点复杂。

预处理连续特征有两种常用方法:

  1. 将特征缩放到 [0, 1] 范围(如您所做的那样)
  2. 去除均值并缩放到单位方差(使特征具有零均值和 1 个标准方差)

在我的实践中,我根据我的数据集采用这两种方式。