数据挖掘 - 如何标准化我的数据（使用 Keras LSTM 进行单变量时间序列预测）？ - 吾爱随笔录

让 $X = (X_1,...., X_n)$ 单变量时间序列。当我将数据拆分为训练和测试数据时，我想知道如何标准化我的数据。让我解释一下我是如何转变的 $X$ 这样我就可以拟合 LSTM 神经网络。从 $X$ 我制作了一个新的输入数据及其相应的输出数据。所以，我们有： $X = ( (X_1, ..., X_m), ... , (X_{n-m}, ..., X_{n-1}) )$
$Y = (X_{m+1}, ..., X_n)$
$\text{Card}X = \text{Card}Y$
让我们设置 $p$ 我的测试集的大小。如果我使用 Python 的符号，我们有：
$X_{train} = X[:-p]$
$X_{test} = X[-p:]$
同上 $Y$ ...现在，我想知道如何标准化我的数据。我认为标准化 $X$ 在将数据拆分为训练集和测试集之前可能会导致过度拟合，因为我们的转换涉及所有 $X_i$ . 基本上，我不确定总和（平均值，标准差）会淹没信息。在这种情况下，我认为最好只计算训练集中的均值和标准差，并使用它们来标准化训练集和测试集。对我来说，单独标准化它们是没有意义的，因为 $\text{Card}X_{test} << \text{Card}X_{train}$ . 但可能是我错了。我也想知道要不要标准化 $Y$ 和 $X$ 要不就 $X$ . 当我使用 MLP 神经网络时，我曾经只是对输入数据进行归一化。

所以，首先感谢您的阅读，如果您有任何想法或意见，有任何问题要问，请告诉我。我可以解释更多，这取决于你:)

PS我没有找到“标准化”标签，因此我使用了名为标准化的标签。