数据挖掘 - 用于视频分类问题的小数据集的训练测试拆分和增强策略 - 吾爱随笔录

对于二进制分类问题，我有一个包含大约 100 个视频的小型视频数据集，每个类别都有。这会产生总共 200 个视频。我在视频上应用了两种类型的增强。

所有视频都捕捉到了一些液体滴落到纸上的相同现象。我在下面附上了两帧视频，一帧靠近开始，另一帧在水滴扩大时。在 3D CNN 上，我得到了大约 85% 的准确率。

我担心的是：

由于我有一个小数据集，是否可以先应用变革性增强然后进行训练测试拆分，以便我的数据集扩展到 1000 个视频，并且拆分结果为 800:200 个视频？或者我应该在增强之前进行拆分，从而产生 80x5=400 个训练视频和 20 个测试视频？
此外，我的 CNN 具有三个非常标准的卷积层和两个批量归一化层。在我获得良好准确度的每次运行中，测试准确度比训练准确度高 1-2%。应该有关系吗？
此外，当我包括第二种类型的亮度增强等时，我看到训练和测试精度的差异为 10-15%。我认为这可能是由于与测试集相比，训练集变得非常困难。我想对了吗？