我正在训练用于肿瘤分割的Unet模型。为此,我有一个包含400 名患者的数据集。使用的图像是 CT 扫描(3D 图像),我将其划分为 2D 图像(总共 30k 2D 图像)。
我实际上将数据集分为:10% 的测试数据、18% 的验证数据、72% 的实际训练数据。我将测试和训练数据划分为患者(即用于测试的患者与用于训练的患者不同)。之后,我将 2D 图像打乱并拆分为训练/测试数据集(即可以在训练数据集和验证数据集中找到相同的患者,但不是相同的堆栈图像)。
我有两个问题:
- 我也应该根据患者拆分训练/验证数据集吗?
- 训练/测试/验证中的划分百分比是否适合我的问题?