我正在训练神经网络,并试图将我的数据划分为训练集和测试集。我有很多输出类,其中一些只有 2 个示例,所以在这种情况下,我希望有 1 个训练示例和 1 个测试示例。根据我的阅读,这是使用stratify
参数,但分层是什么意思?
我将我的数据分为训练和测试:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, random_state=42, stratify=y)
所以,据我了解,这分为两组:训练(90% 的数据)和测试(10% 的数据),但要确保每组中每个类至少有 1 个?