正在使用逻辑回归数据进行二元分类
我有 1000 行和 28 个特征。三到四个变量是 Id 变量,例如 product_id、subject_id 等
在 train_test 拆分期间,我将它们删除,如下所示
X = df.drop(['status','Product_ID','subject_ID'], axis=1)
y = df.status
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size=0.25,
random_state=0)
一旦我这样做了,我会做一些预处理和建模任务,如下所示
a)encoding分别用于训练和测试的分类变量 b) model.fit()
c) model.predict()
d) 最后,我得到y_pred并将其与y_test.
我的问题如下
a) 当 中没有标识符时y_pred,我如何链接回来以获取该实例的完整行?意思是,我想要该观察的完整数据行以及新列predicted_status(在已经存在的实际status列旁边)。无论如何ID在模型构建过程中包含变量但使其效果为0(或者只是作为无用的列留在那里)
b) 在训练测试拆分、编码、交叉验证、测试等过程中是否会保留相同的顺序
c)如果我们根据某些标准(例如 2015-2020 年(成为火车)和 2020 年成为测试之后的任何时间)拆分训练和测试,会发生什么?