将此数据集的输入数据输入 keras 进行训练

数据挖掘 机器学习 分类 喀拉斯 预处理 麻木的
2022-03-01 04:52:54

假设我有 3 个 csv 文件,它们构成了在 Keras 中训练机器学习模型的数据集。

文件 1.csv

Name, X1,       X2,         X3
Joe,  1.16,                 1.00,                   1.11
Joe,  1.19,                 1.11,                   1.17
Joe,  1.17,                 1.13,                   1.16

文件2.csv

Name, X1,       X2,         X3
Jack,   1.81,               1.23,                   1.15
Jack,   1.34,               1.53,                   1.87
Jack,   1.35,               1.64,                   1.75

文件 3.csv

Name, X1,       X2,         X3
Bo,     1.42,               1.64,                   1.43
Bo,     1.35,               1.53,                   1.32
Bo,     1.46,               1.64,                   1.53

根据数据,我会分类这个人的表现是好是坏。对于上面的数据,Joe 的表现很好,而其他人的表现很差。

在 keras 中,上述数据集将被转换为 numpy ndarraysX_trainY_train输入model.fit()如下;

model.fit(X_train, 
          Y_train, 
          nb_epoch=5, 
          batch_size = 128, 
          verbose=1, 
          validation_split=0.1)

我对如何X_train以及Y_train应该是什么样子感到困惑。X_train的形状应该是什么Y_train

假设我从 csv 文件中读取了以下数据帧。

df1 = pd.read_csv(file1.csv)
df2 = pd.read_csv(file2.csv)
df3 = pd.read_csv(file3.csv)

我应该如何使用这些数据框来获取X_trainY_train

我正在使用 python v3,keras 和 tensorflow。

1个回答

有两个步骤:

  1. CSV 需要合并并整理成整洁的数据形式。Pandas 和 DataFrames 是这些操作最常见的选择。

  2. 生成的数据帧需要转换为 NumPy 数组。文本需要编码为数值。一种选择是单热编码。