我有一个基于 Keras Xception 的手势识别模型。该模型对 7 种不同手势的分类准确率约为 60-70%。训练数据集由 320x240 和 640x480 像素图像组成。目前,我让input_shape模型的参数等于Keras 中Xception 模型的默认值,即(299, 299, 3). 我假设网络正在将所有输入重新缩放为 299x299 像素,这可能不是一个好方法。
我的问题是:
- Xception 模型是否以某种方式针对 299x299 图像尺寸进行了优化?也就是说,我是否应该将输入裁剪/填充为 299x299 像素而不是更改模型的配置?
- 到目前为止,我看到的所有使用示例都有输入宽度 = 高度。有理由更喜欢方形图像吗?
- 如果我不使用裁剪/填充,则输入形状有两个选项:在预处理步骤中将所有图像重新缩放为 640x480,或将所有图像重新缩放为 320x240。640x480 选项是否可能会带来更好的精度?