我正在对时间序列传感器数据(在 Python 中)进行分类,其中我将传感器数据分割成具有一定窗口长度(例如 3 秒)的样本。然而,样本也相互重叠。例如,第一个样本是 0s3s,秒是2.7s5.7秒...
我现在想知道,我如何才能对这些样本进行适当的训练测试拆分。现在,我看到了两种方法:
拆分样本而不先对其进行洗牌,然后将样本放在“边界”,以避免训练数据和测试数据之间的重叠。但是,这并不是最优的,因为我希望从整个数据集中获取用于训练和测试集的样本。否则我只会在数据序列上测试分类器,这可能与用于训练的序列非常不同。
首先将样本打乱,然后将它们拆分为测试训练。这将导致训练和测试数据之间的重叠,因此会产生过于乐观的结果。
有谁知道如何做到这一点?