数据挖掘 - 一个拥有大量数据的模型是否有可能在单个 epoch 内表现得非常好并达到极低的成本？ - 吾爱随笔录

我正在开展一个使用此数据集检测人类意识水平的项目。

我对视频数据进行了如下预处理：

将视频转换为帧（每 5 秒拍摄一帧。
将框架旋转为垂直。
应用 OpenCV DNN 从图像中提取人脸。
将数据分成 90% 的训练、5% 的验证和 5% 的测试。

数据集中的所有图像的大小约为 570,000 张。

我在移动设备上使用该模型，因此我使用 MobileNetV2 进行迁移学习。模型分类非常好，但看到它做得这么好并且这么快达到非常低的损失感觉很奇怪。

在这么大的数据集上这甚至可能吗？当我尝试在移动设备上使用带有 Tensorflow.js 的模型时，我觉得我做错了，它根本表现不佳。在做了一些研究之后，我意识到我应该使用一个结合了 CNN 和 LSTM 的模型，因为这是视频数据。但是我有点时间紧迫，无法重新对数据进行整个预处理，将图像转换为一系列帧，然后再次进行训练。