我想知道如何将以下内容分成相等的数量
Target
0 1586
1 318
为了在数据集中有相同比例的 0 和 1 类进行训练,如果我的数据集被称为 df 并且包括 10 列,包括数字和分类。
我会考虑以下
y=df['Target']
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.1, stratify=y)
所以做一个分层,但我不知道它是否正确,如果你能确认它或提供一个替代方案,我将不胜感激。
数据样本
Fin Eco Target
High percentage 12 1
Low percentage 5 0
Medium percentage 48 0
NA 3 1
TBC NA 1
Low percentage 25 0
Medium percentage 12 0
我如何检查它是否实际上在我的数据集中按相等的类比例拆分?我认为训练模型的最佳方法应该是具有相等比例的 0 和 1 值。现在我有 5 次数据,目标 = 0。